Apache Flume - บทนำ
Flume คืออะไร?
Apache Flume เป็นเครื่องมือ / บริการ / กลไกการนำเข้าข้อมูลสำหรับการรวบรวมการรวมและการขนส่งข้อมูลสตรีมมิ่งจำนวนมากเช่นไฟล์บันทึกเหตุการณ์ (ฯลฯ ... ) จากแหล่งต่างๆไปยังที่เก็บข้อมูลส่วนกลาง
Flume เป็นเครื่องมือที่เชื่อถือได้กระจายและกำหนดค่าได้สูง ได้รับการออกแบบมาโดยเฉพาะเพื่อคัดลอกข้อมูลสตรีมมิ่ง (ข้อมูลบันทึก) จากเว็บเซิร์ฟเวอร์ต่างๆไปยัง HDFS
การใช้งาน Flume
สมมติว่าเว็บแอปพลิเคชันอีคอมเมิร์ซต้องการวิเคราะห์พฤติกรรมของลูกค้าจากภูมิภาคใดภูมิภาคหนึ่ง ในการทำเช่นนั้นพวกเขาจะต้องย้ายข้อมูลบันทึกที่มีอยู่ไปยัง Hadoop เพื่อทำการวิเคราะห์ ที่นี่ Apache Flume มาช่วยเรา
Flume ใช้เพื่อย้ายข้อมูลบันทึกที่สร้างโดยแอ็พพลิเคชันเซิร์ฟเวอร์ไปยัง HDFS ด้วยความเร็วที่สูงขึ้น
ข้อดีของ Flume
นี่คือข้อดีของการใช้ Flume -
การใช้ Apache Flume เราสามารถจัดเก็บข้อมูลในร้านค้าส่วนกลาง (HBase, HDFS)
เมื่ออัตราของข้อมูลขาเข้าเกินอัตราที่ข้อมูลสามารถเขียนไปยังปลายทางได้ Flume จะทำหน้าที่เป็นสื่อกลางระหว่างผู้ผลิตข้อมูลและร้านค้าส่วนกลางและให้ข้อมูลที่ไหลสม่ำเสมอระหว่างกัน
Flume มีคุณสมบัติของ contextual routing.
ธุรกรรมใน Flume เป็นแบบตามช่องทางที่มีการดูแลธุรกรรมสองรายการ (ผู้ส่งหนึ่งรายและผู้รับหนึ่งราย) สำหรับแต่ละข้อความ รับประกันการส่งข้อความที่เชื่อถือได้
Flume มีความน่าเชื่อถือทนต่อความผิดพลาดปรับขนาดได้จัดการและปรับแต่งได้
คุณสมบัติของ Flume
คุณสมบัติเด่นบางประการของ Flume มีดังนี้ -
Flume นำเข้าข้อมูลบันทึกจากเว็บเซิร์ฟเวอร์หลายเครื่องไปยังร้านค้าส่วนกลาง (HDFS, HBase) อย่างมีประสิทธิภาพ
เมื่อใช้ Flume เราสามารถรับข้อมูลจากเซิร์ฟเวอร์หลายเครื่องเข้าสู่ Hadoop ได้ทันที
นอกจากไฟล์บันทึกแล้ว Flume ยังใช้เพื่อนำเข้าข้อมูลเหตุการณ์จำนวนมากที่ผลิตโดยเว็บไซต์เครือข่ายสังคมเช่น Facebook และ Twitter และเว็บไซต์อีคอมเมิร์ซเช่น Amazon และ Flipkart
Flume รองรับแหล่งที่มาและประเภทปลายทางจำนวนมาก
Flume รองรับกระแส multi-hop กระแส fan-in fan-out การกำหนดเส้นทางตามบริบท ฯลฯ
Flume สามารถปรับขนาดได้ในแนวนอน