ปฏิทิน - ข้อมูลขนาดใหญ่

แท็กไลน์สำหรับ Open Studio ที่มี Big data คือ "Simplify ETL และ ELT ด้วยเครื่องมือ ETL แบบโอเพนซอร์สฟรีชั้นนำสำหรับข้อมูลขนาดใหญ่" ในบทนี้ให้เราพิจารณาการใช้ Talend เป็นเครื่องมือในการประมวลผลข้อมูลบนสภาพแวดล้อมข้อมูลขนาดใหญ่

บทนำ

Talend Open Studio - Big Data เป็นเครื่องมือฟรีและโอเพ่นซอร์สสำหรับการประมวลผลข้อมูลของคุณได้อย่างง่ายดายบนสภาพแวดล้อมข้อมูลขนาดใหญ่ คุณมีส่วนประกอบข้อมูลขนาดใหญ่มากมายใน Talend Open Studio ซึ่งช่วยให้คุณสร้างและเรียกใช้งาน Hadoop ได้เพียงแค่ลากและวางส่วนประกอบ Hadoop เพียงไม่กี่ชิ้น

นอกจากนี้เราไม่จำเป็นต้องเขียนโค้ด MapReduce บรรทัดใหญ่ Talend Open Studio Big data ช่วยให้คุณทำสิ่งนี้กับส่วนประกอบที่มีอยู่ในนั้น มันสร้างรหัส MapReduce ให้คุณโดยอัตโนมัติคุณเพียงแค่ลากและวางส่วนประกอบและกำหนดค่าพารามิเตอร์บางอย่าง

นอกจากนี้ยังให้คุณมีตัวเลือกในการเชื่อมต่อกับการกระจายข้อมูลขนาดใหญ่หลายอย่างเช่น Cloudera, HortonWorks, MapR, Amazon EMR และแม้แต่ Apache

ส่วนประกอบของปฏิทินสำหรับข้อมูลขนาดใหญ่

รายชื่อหมวดหมู่ที่มีส่วนประกอบในการเรียกใช้งานในสภาพแวดล้อม Big Data ที่รวมอยู่ใน Big Data แสดงอยู่ด้านล่าง -

รายการตัวเชื่อมต่อและส่วนประกอบ Big Data ใน Talend Open Studio แสดงอยู่ด้านล่าง -

tHDFSConnection - ใช้สำหรับเชื่อมต่อกับ HDFS (Hadoop Distributed File System)
tHDFSInput - อ่านข้อมูลจากเส้นทาง hdfs ที่กำหนดใส่ลงใน talend schema แล้วส่งต่อไปยังส่วนประกอบถัดไปในงาน
tHDFSList - ดึงไฟล์และโฟลเดอร์ทั้งหมดในเส้นทาง hdfs ที่กำหนด
tHDFSPut - คัดลอกไฟล์ / โฟลเดอร์จากระบบไฟล์ภายใน (ผู้ใช้กำหนด) ไปยัง hdfs ที่เส้นทางที่กำหนด
tHDFSGet - คัดลอกไฟล์ / โฟลเดอร์จาก hdfs ไปยังระบบไฟล์ภายใน (ผู้ใช้กำหนด) ตามเส้นทางที่กำหนด
tHDFSDelete - ลบไฟล์จาก HDFS
tHDFSExist - ตรวจสอบว่ามีไฟล์อยู่บน HDFS หรือไม่
tHDFSOutput - เขียนกระแสข้อมูลบน HDFS
tCassandraConnection - เปิดการเชื่อมต่อกับเซิร์ฟเวอร์ Cassandra
tCassandraRow - รันคิวรี CQL (Cassandra query language) บนฐานข้อมูลที่ระบุ
tHBaseConnection - เปิดการเชื่อมต่อกับฐานข้อมูล HBase
tHBaseInput - อ่านข้อมูลจากฐานข้อมูล HBase
tHiveConnection - เปิดการเชื่อมต่อกับฐานข้อมูล Hive
tHiveCreateTable - สร้างตารางภายในฐานข้อมูลรัง
tHiveInput - อ่านข้อมูลจากฐานข้อมูลรัง
tHiveLoad - เขียนข้อมูลลงในตารางไฮฟ์หรือไดเร็กทอรีที่ระบุ
tHiveRow - เรียกใช้การสืบค้น HiveQL บนฐานข้อมูลที่ระบุ
tPigLoad - โหลดข้อมูลอินพุตไปยังเอาต์พุตสตรีม
tPigMap - ใช้สำหรับการแปลงและกำหนดเส้นทางข้อมูลในกระบวนการสุกร
tPigJoin - ดำเนินการเข้าร่วม 2 ไฟล์ตามคีย์การเข้าร่วม
tPigCoGroup - จัดกลุ่มและรวบรวมข้อมูลที่มาจากอินพุตหลาย ๆ
tPigSort - จัดเรียงข้อมูลที่กำหนดตามคีย์การจัดเรียงที่กำหนดไว้อย่างน้อยหนึ่งคีย์
tPigStoreResult - จัดเก็บผลลัพธ์จากการทำงานของสุกรในพื้นที่จัดเก็บที่กำหนด
tPigFilterRow - กรองคอลัมน์ที่ระบุเพื่อแยกข้อมูลตามเงื่อนไขที่กำหนด
tPigDistinct - ลบสิ่งที่ซ้ำกันออกจากความสัมพันธ์
tSqoopImport - ถ่ายโอนข้อมูลจากฐานข้อมูลเชิงสัมพันธ์เช่น MySQL, Oracle DB ไปยัง HDFS
tSqoopExport - ถ่ายโอนข้อมูลจาก HDFS ไปยังฐานข้อมูลเชิงสัมพันธ์เช่น MySQL, Oracle DB