Talend - ลดแผนที่
ในบทที่แล้วเราได้เห็นวิธีการทำงานของ Talend กับ Big Data ในบทนี้ให้เราเข้าใจวิธีใช้แผนที่ลดกับ Talend
การสร้างงาน Talend MapReduce
ให้เราเรียนรู้วิธีเรียกใช้งาน MapReduce บน Talend ที่นี่เราจะเรียกใช้ตัวอย่างการนับคำ MapReduce
เพื่อจุดประสงค์นี้ให้คลิกขวาที่ Job Design และสร้างงานใหม่ - MapreduceJob พูดถึงรายละเอียดของงานแล้วคลิกเสร็จสิ้น
การเพิ่มส่วนประกอบให้กับงาน MapReduce
ในการเพิ่มส่วนประกอบให้กับงาน MapReduce ให้ลากและวางองค์ประกอบห้าส่วนของ Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput จากพาเลทไปยังหน้าต่างนักออกแบบ คลิกขวาที่ tHDFSInput และสร้างลิงค์หลักเพื่อ tNormalize
คลิกขวาที่ tNormalize และสร้างลิงค์หลักไปยัง tAggregateRow จากนั้นคลิกขวาที่ tAggregateRow และสร้างลิงค์หลักไปยัง tMap ตอนนี้คลิกขวาที่ tMap และสร้างลิงค์หลักไปยัง tHDFSOutput
การกำหนดค่าส่วนประกอบและการแปลง
ใน tHDFSInput เลือก cloudera การแจกจ่ายและเวอร์ชัน โปรดทราบว่า Namenode URI ควรเป็น“ hdfs: //quickstart.cloudera: 8020” และชื่อผู้ใช้ควรเป็น“ cloudera” ในตัวเลือกชื่อไฟล์ให้เส้นทางของไฟล์อินพุตของคุณไปยังงาน MapReduce ตรวจสอบให้แน่ใจว่าไฟล์อินพุตนี้มีอยู่ใน HDFS
ตอนนี้เลือกประเภทไฟล์ตัวคั่นแถวตัวคั่นไฟล์และส่วนหัวตามไฟล์อินพุตของคุณ
คลิกแก้ไขสคีมาและเพิ่มช่อง "บรรทัด" เป็นประเภทสตริง
ใน tNomalize คอลัมน์ที่จะทำให้เป็นมาตรฐานจะเป็นบรรทัดและตัวคั่นรายการจะเป็นช่องว่าง ->““ ตอนนี้คลิกแก้ไขสคีมา tNormalize จะมี line column และ tAggregateRow จะมี word และ wordcount 2 คอลัมน์ตามรูปด้านล่าง
ใน tAggregateRow ให้ใส่ word เป็นคอลัมน์ผลลัพธ์ใน Group by option ในการดำเนินการให้ใส่ wordcount เป็นคอลัมน์เอาต์พุตฟังก์ชันนับและตำแหน่งคอลัมน์อินพุตเป็นบรรทัด
ตอนนี้ดับเบิลคลิกที่ส่วนประกอบ tMap เพื่อเข้าสู่โปรแกรมแก้ไขแผนที่และแมปอินพุตกับเอาต์พุตที่ต้องการ ในตัวอย่างนี้คำจะถูกแมปด้วยคำและจำนวนคำถูกแมปด้วยจำนวนคำ ในคอลัมน์นิพจน์คลิกที่ […] เพื่อเข้าสู่ตัวสร้างนิพจน์
ตอนนี้เลือก StringHandling จากรายการหมวดหมู่และฟังก์ชัน UPCASE แก้ไขนิพจน์เป็น“ StringHandling.UPCASE (row3.word)” แล้วคลิกตกลง เก็บ row3.wordcount ไว้ในคอลัมน์นิพจน์ที่สอดคล้องกับ wordcount ดังที่แสดงด้านล่าง
ใน tHDFSOutput เชื่อมต่อกับคลัสเตอร์ Hadoop ที่เราสร้างจากชนิดคุณสมบัติเป็นที่เก็บ สังเกตว่าช่องต่างๆจะได้รับการเติมอัตโนมัติ ในชื่อไฟล์ระบุพา ธ เอาต์พุตที่คุณต้องการจัดเก็บเอาต์พุต เก็บการดำเนินการตัวคั่นแถวและตัวคั่นฟิลด์ตามที่แสดงด้านล่าง
การดำเนินงาน MapReduce
เมื่อการกำหนดค่าของคุณเสร็จสมบูรณ์ให้คลิกเรียกใช้และดำเนินการงาน MapReduce ของคุณ
ไปที่เส้นทาง HDFS ของคุณและตรวจสอบผลลัพธ์ โปรดทราบว่าคำทั้งหมดจะเป็นตัวพิมพ์ใหญ่พร้อมกับจำนวนคำ