Talend - รัง

ในบทนี้ให้เราเข้าใจวิธีการทำงานกับ Hive job บน Talend

การสร้างงาน Talend Hive

ตัวอย่างเช่นเราจะโหลดข้อมูล NYSE ไปยังตารางไฮฟ์และเรียกใช้แบบสอบถามกลุ่มพื้นฐาน คลิกขวาที่ Job Design และสร้างงานใหม่ - hivejob พูดถึงรายละเอียดของงานและคลิกที่ Finish

การเพิ่มส่วนประกอบใน Hive Job

ในการแยกส่วนประกอบไปยังงาน Hive ให้ลากและวางองค์ประกอบปฏิทินห้ารายการ - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput และ tLogRow จากพาเลทไปยังหน้าต่างนักออกแบบ จากนั้นคลิกขวาที่ tHiveConnection และสร้าง OnSubjobOk ทริกเกอร์เพื่อ tHiveCreateTable ตอนนี้คลิกขวาที่ tHiveCreateTable และสร้าง OnSubjobOk ทริกเกอร์เพื่อ tHiveLoad คลิกขวาที่ tHiveLoad และสร้างทริกเกอร์ซ้ำบน tHiveInput สุดท้ายคลิกขวาที่ tHiveInput และสร้างบรรทัดหลักเพื่อ tLogRow

การกำหนดค่าส่วนประกอบและการแปลง

ใน tHiveConnection ให้เลือกการแจกจ่ายเป็น cloudera และเวอร์ชันที่คุณใช้ โปรดทราบว่าโหมดการเชื่อมต่อจะเป็นแบบสแตนด์อโลนและ Hive Service จะเป็น Hive 2 และตรวจสอบว่าได้ตั้งค่าพารามิเตอร์ต่อไปนี้ตามนั้นหรือไม่ -

  • โฮสต์:“ quickstart.cloudera”
  • พอร์ต:“ 10000”
  • ฐานข้อมูล:“ ค่าเริ่มต้น”
  • ชื่อผู้ใช้:“ hive”

โปรดทราบว่ารหัสผ่านจะถูกกรอกโดยอัตโนมัติคุณไม่จำเป็นต้องแก้ไข คุณสมบัติอื่น ๆ ของ Hadoop จะถูกตั้งค่าล่วงหน้าและตั้งค่าตามค่าเริ่มต้น

ใน tHiveCreateTable เลือกใช้การเชื่อมต่อที่มีอยู่แล้วใส่ tHiveConnection ในรายการคอมโพเนนต์ ตั้งชื่อตารางที่คุณต้องการสร้างในฐานข้อมูลเริ่มต้น เก็บพารามิเตอร์อื่น ๆ ตามที่แสดงด้านล่าง

ใน tHiveLoad ให้เลือก“ ใช้การเชื่อมต่อที่มีอยู่” และใส่ tHiveConnection ในรายการส่วนประกอบ เลือก LOAD ในการดำเนินการโหลด ใน File Path ให้เส้นทาง HDFS ของไฟล์อินพุต NYSE ของคุณ พูดถึงตารางในชื่อตารางที่คุณต้องการโหลดอินพุต เก็บพารามิเตอร์อื่น ๆ ตามที่แสดงด้านล่าง

ใน tHiveInput เลือกใช้การเชื่อมต่อที่มีอยู่และใส่ tHiveConnection ในรายการคอมโพเนนต์ คลิกแก้ไขสคีมาเพิ่มคอลัมน์และประเภทตามที่แสดงในสคีมาสคีมาด้านล่าง ตอนนี้ให้ชื่อตารางที่คุณสร้างใน tHiveCreateTable

ใส่แบบสอบถามของคุณในตัวเลือกแบบสอบถามที่คุณต้องการเรียกใช้บนตารางไฮฟ์ ที่นี่เรากำลังพิมพ์คอลัมน์ทั้งหมดของ 10 แถวแรกในตารางกลุ่มทดสอบ

ใน tLogRow ให้คลิกคอลัมน์ซิงค์และเลือกโหมดตารางเพื่อแสดงผลลัพธ์

การดำเนินการ Hive Job

คลิกที่ Run เพื่อเริ่มการดำเนินการ หากการเชื่อมต่อและพารามิเตอร์ทั้งหมดถูกตั้งค่าอย่างถูกต้องคุณจะเห็นผลลัพธ์ของแบบสอบถามของคุณดังที่แสดงด้านล่าง