ปฏิทิน - ข้อมูลขนาดใหญ่

แท็กไลน์สำหรับ Open Studio ที่มี Big data คือ "Simplify ETL และ ELT ด้วยเครื่องมือ ETL แบบโอเพนซอร์สฟรีชั้นนำสำหรับข้อมูลขนาดใหญ่" ในบทนี้ให้เราพิจารณาการใช้ Talend เป็นเครื่องมือในการประมวลผลข้อมูลบนสภาพแวดล้อมข้อมูลขนาดใหญ่

บทนำ

Talend Open Studio - Big Data เป็นเครื่องมือฟรีและโอเพ่นซอร์สสำหรับการประมวลผลข้อมูลของคุณได้อย่างง่ายดายบนสภาพแวดล้อมข้อมูลขนาดใหญ่ คุณมีส่วนประกอบข้อมูลขนาดใหญ่มากมายใน Talend Open Studio ซึ่งช่วยให้คุณสร้างและเรียกใช้งาน Hadoop ได้เพียงแค่ลากและวางส่วนประกอบ Hadoop เพียงไม่กี่ชิ้น

นอกจากนี้เราไม่จำเป็นต้องเขียนโค้ด MapReduce บรรทัดใหญ่ Talend Open Studio Big data ช่วยให้คุณทำสิ่งนี้กับส่วนประกอบที่มีอยู่ในนั้น มันสร้างรหัส MapReduce ให้คุณโดยอัตโนมัติคุณเพียงแค่ลากและวางส่วนประกอบและกำหนดค่าพารามิเตอร์บางอย่าง

นอกจากนี้ยังให้คุณมีตัวเลือกในการเชื่อมต่อกับการกระจายข้อมูลขนาดใหญ่หลายอย่างเช่น Cloudera, HortonWorks, MapR, Amazon EMR และแม้แต่ Apache

ส่วนประกอบของปฏิทินสำหรับข้อมูลขนาดใหญ่

รายชื่อหมวดหมู่ที่มีส่วนประกอบในการเรียกใช้งานในสภาพแวดล้อม Big Data ที่รวมอยู่ใน Big Data แสดงอยู่ด้านล่าง -

รายการตัวเชื่อมต่อและส่วนประกอบ Big Data ใน Talend Open Studio แสดงอยู่ด้านล่าง -

  • tHDFSConnection - ใช้สำหรับเชื่อมต่อกับ HDFS (Hadoop Distributed File System)

  • tHDFSInput - อ่านข้อมูลจากเส้นทาง hdfs ที่กำหนดใส่ลงใน talend schema แล้วส่งต่อไปยังส่วนประกอบถัดไปในงาน

  • tHDFSList - ดึงไฟล์และโฟลเดอร์ทั้งหมดในเส้นทาง hdfs ที่กำหนด

  • tHDFSPut - คัดลอกไฟล์ / โฟลเดอร์จากระบบไฟล์ภายใน (ผู้ใช้กำหนด) ไปยัง hdfs ที่เส้นทางที่กำหนด

  • tHDFSGet - คัดลอกไฟล์ / โฟลเดอร์จาก hdfs ไปยังระบบไฟล์ภายใน (ผู้ใช้กำหนด) ตามเส้นทางที่กำหนด

  • tHDFSDelete - ลบไฟล์จาก HDFS

  • tHDFSExist - ตรวจสอบว่ามีไฟล์อยู่บน HDFS หรือไม่

  • tHDFSOutput - เขียนกระแสข้อมูลบน HDFS

  • tCassandraConnection - เปิดการเชื่อมต่อกับเซิร์ฟเวอร์ Cassandra

  • tCassandraRow - รันคิวรี CQL (Cassandra query language) บนฐานข้อมูลที่ระบุ

  • tHBaseConnection - เปิดการเชื่อมต่อกับฐานข้อมูล HBase

  • tHBaseInput - อ่านข้อมูลจากฐานข้อมูล HBase

  • tHiveConnection - เปิดการเชื่อมต่อกับฐานข้อมูล Hive

  • tHiveCreateTable - สร้างตารางภายในฐานข้อมูลรัง

  • tHiveInput - อ่านข้อมูลจากฐานข้อมูลรัง

  • tHiveLoad - เขียนข้อมูลลงในตารางไฮฟ์หรือไดเร็กทอรีที่ระบุ

  • tHiveRow - เรียกใช้การสืบค้น HiveQL บนฐานข้อมูลที่ระบุ

  • tPigLoad - โหลดข้อมูลอินพุตไปยังเอาต์พุตสตรีม

  • tPigMap - ใช้สำหรับการแปลงและกำหนดเส้นทางข้อมูลในกระบวนการสุกร

  • tPigJoin - ดำเนินการเข้าร่วม 2 ไฟล์ตามคีย์การเข้าร่วม

  • tPigCoGroup - จัดกลุ่มและรวบรวมข้อมูลที่มาจากอินพุตหลาย ๆ

  • tPigSort - จัดเรียงข้อมูลที่กำหนดตามคีย์การจัดเรียงที่กำหนดไว้อย่างน้อยหนึ่งคีย์

  • tPigStoreResult - จัดเก็บผลลัพธ์จากการทำงานของสุกรในพื้นที่จัดเก็บที่กำหนด

  • tPigFilterRow - กรองคอลัมน์ที่ระบุเพื่อแยกข้อมูลตามเงื่อนไขที่กำหนด

  • tPigDistinct - ลบสิ่งที่ซ้ำกันออกจากความสัมพันธ์

  • tSqoopImport - ถ่ายโอนข้อมูลจากฐานข้อมูลเชิงสัมพันธ์เช่น MySQL, Oracle DB ไปยัง HDFS

  • tSqoopExport - ถ่ายโอนข้อมูลจาก HDFS ไปยังฐานข้อมูลเชิงสัมพันธ์เช่น MySQL, Oracle DB