เครื่องมือโอเพ่นซอร์สที่ดีที่สุดสำหรับวิศวกรรมข้อมูล
ฟิลด์วิศวกรรมข้อมูลเป็นที่นิยมในปัจจุบันและมีเครื่องมือมากมายในโลกโอเพ่นซอร์ส อันดับแรก เรามาดูกระบวนการที่สำคัญของกระบวนการทางวิศวกรรมข้อมูล แล้วจึงใช้เครื่องมือในการประมวลผลอย่างชาญฉลาด
การกลืนกิน → การจัดเก็บ → การเปลี่ยนแปลง → สำรวจและวิเคราะห์
เครื่องมือการจัดการเวิร์กโฟลว์:
อาปาเช่แอร์โฟลว์
กรอบงานโอเพ่นซอร์สสำหรับการจัดการเวิร์กโฟลว์สำหรับไปป์ไลน์วิศวกรรมข้อมูลคือ Apache Airflow ในเดือนตุลาคม 2014 Airbnb ใช้เป็นวิธีจัดการกับการดำเนินงานที่ซับซ้อนมากขึ้นของธุรกิจ
อ่านเพิ่มเติมที่นี่
ลุยจิ
ไลบรารี Python (ทดสอบ 2.7, 3.6 และ 3.7) ชื่อ Luigi ช่วยให้สร้างไปป์ไลน์งานที่ซับซ้อนได้ง่ายขึ้น มันจัดการการจัดการเวิร์กโฟลว์ การแสดงภาพ การจัดการข้อผิดพลาด การรวมบรรทัดคำสั่ง และอื่น ๆ อีกมากมาย
อ่านเพิ่มเติมที่นี่
เครื่องมือการส่งผ่านข้อมูล:
อาปาเช่ คาฟคา
ที่เก็บเหตุการณ์แบบกระจายและแพลตฟอร์มการประมวลผลสตรีมคือ Apache Kafka เป็นระบบโอเพ่นซอร์สบน Java และ Scala ที่สร้างขึ้นโดย Apache Software Foundation โครงการนี้มีจุดมุ่งหมายเพื่อจัดหาแพลตฟอร์มที่เป็นหนึ่งเดียว ปริมาณงานสูง และเวลาแฝงต่ำสำหรับการจัดการฟีดข้อมูลแบบเรียลไทม์
อ่านเพิ่มเติมที่นี่
เครื่องมือจัดเก็บ:
เอชดีเอฟเอส
แอปพลิเคชัน Hadoop ใช้ HDFS (Hadoop Distributed File System) เป็นโซลูชันการจัดเก็บข้อมูลหลักเป็นหลัก เฟรมเวิร์กโอเพ่นซอร์สทำงานโดยการส่งข้อมูลอย่างรวดเร็วระหว่างโหนด บริษัทที่ต้องจัดการและจัดเก็บข้อมูลจำนวนมากมักใช้ข้อมูลนี้
อ่านเพิ่มเติมที่นี่
เซฟ
แพลตฟอร์มการจัดเก็บข้อมูลที่กำหนดโดยซอฟต์แวร์ Ceph แบบโอเพ่นซอร์สมีอินเทอร์เฟซแบบ 3-in-1 สำหรับการจัดเก็บระดับวัตถุ บล็อก และไฟล์บนคลัสเตอร์คอมพิวเตอร์แบบกระจายเครื่องเดียว
อ่านเพิ่มเติมที่นี่
เปิดสแต็คอย่างรวดเร็ว
OpenStack Swift หรือที่เรียกกันทั่วไปว่า OpenStack Object Storage เป็นซอฟต์แวร์โอเพ่นซอร์สที่สร้างขึ้นเพื่อจัดการพื้นที่จัดเก็บข้อมูลปริมาณมหาศาลในระยะยาวและคุ้มค่าใช้จ่ายทั่วทั้งคลัสเตอร์ของฮาร์ดแวร์เซิร์ฟเวอร์ทั่วไป
อ่านเพิ่มเติมที่นี่
เครื่องมือแปลงร่าง:
อาปาเช่ สปาร์ค
เครื่องมือวิเคราะห์แบบครบวงจรแบบโอเพ่นซอร์สสำหรับการวิเคราะห์ข้อมูลจำนวนมหาศาลคือ Apache Spark อินเทอร์เฟซที่เรียกว่า Spark ช่วยให้สามารถตั้งโปรแกรมคลัสเตอร์ด้วยความขนานของข้อมูลโดยปริยายและการยอมรับข้อผิดพลาด
อ่านเพิ่มเติมที่นี่
อาปาเช่ บีม
รวมถึงการประมวลผล ETL ชุด และสตรีม Apache Beam เป็นสถาปัตยกรรมการเขียนโปรแกรมแบบครบวงจรแบบโอเพ่นซอร์สสำหรับการกำหนดและเรียกใช้ไปป์ไลน์การประมวลผลข้อมูล
อ่านเพิ่มเติมที่นี่
Hadoop มาพรีดูซ
คลัสเตอร์ Hadoop อาจขยายใหญ่ขึ้นด้วยความช่วยเหลือของกระบวนทัศน์การเขียนโปรแกรม MapReduce ในเครื่องหลายร้อยหรือหลายพันเครื่อง แกนหลักของ Apache Hadoop คือ MapReduce ซึ่งทำหน้าที่เป็นส่วนประกอบในการประมวลผล โปรแกรม Hadoop ทำงานสองอย่างแยกกันและแตกต่างกัน ซึ่งเรียกรวมกันว่า “MapReduce”
อ่านเพิ่มเติมที่นี่
สำรวจและวิเคราะห์เครื่องมือ:
กราฟาน่า
แอปพลิเคชันออนไลน์แบบโอเพ่นซอร์สข้ามแพลตฟอร์มสำหรับการสร้างภาพข้อมูลเชิงโต้ตอบและการวิเคราะห์เรียกว่า Grafana เมื่อเชื่อมต่อกับแหล่งข้อมูลที่รองรับ จะมีแผนภูมิ กราฟ และการแจ้งเตือนสำหรับเว็บ
อ่านเพิ่มเติมที่นี่
เมตาเบส
เครื่องมือข่าวกรองธุรกิจแบบโอเพ่นซอร์สคือ Metabase Metabase ช่วยให้คุณสามารถสืบค้นข้อมูลของคุณและแสดงผลลัพธ์ในรูปแบบที่เข้าใจได้ เช่น แผนภูมิแท่งหรือตารางอย่างละเอียด สามารถบันทึกคำถามของคุณ และจัดระเบียบเป็นแดชบอร์ดที่สวยงามได้
อ่านเพิ่มเติมที่นี่
ตอนนี้เรามาถึงจุดสิ้นสุดของบล็อกของเราแล้ว ติดตามฉันสำหรับวิดีโอที่เกี่ยวข้องกับวิศวกรรมข้อมูลเพิ่มเติม
แคลปถ้าคุณชอบมัน