Talend - Giảm bản đồ

Trong chương trước, chúng ta đã biết cách Talend hoạt động với Dữ liệu lớn. Trong chương này, chúng ta hãy hiểu cách sử dụng bản đồ Reduce với Talend.

Tạo một bản đồ lịch

Hãy để chúng tôi tìm hiểu cách thực hiện một công việc MapReduce trên Talend. Ở đây chúng tôi sẽ chạy một ví dụ đếm từ MapReduce.

Với mục đích này, hãy nhấp chuột phải vào Thiết kế Công việc và tạo một công việc mới - MapreduceJob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.

Thêm các thành phần vào công việc MapReduce

Để thêm các thành phần vào một công việc MapReduce, hãy kéo và thả năm thành phần của Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput từ pallet đến cửa sổ thiết kế. Nhấp chuột phải vào tHDFSInput và tạo liên kết chính đến tNormalize.

Nhấp chuột phải vào tNormalize và tạo liên kết chính đến tAggregateRow. Sau đó, nhấp chuột phải vào tAggregateRow và tạo liên kết chính đến tMap. Bây giờ, nhấp chuột phải vào tMap và tạo liên kết chính đến tHDFSOutput.

Cấu hình các thành phần và biến đổi

Trong tHDFSInput, chọn cloudera phân phối và phiên bản của nó. Lưu ý rằng URI Namenode phải là “hdfs: //quickstart.cloudera: 8020” và tên người dùng phải là “cloudera”. Trong tùy chọn tên tệp, hãy cung cấp đường dẫn của tệp đầu vào của bạn đến công việc MapReduce. Đảm bảo rằng tệp đầu vào này có trên HDFS.

Bây giờ, hãy chọn loại tệp, dấu phân cách hàng, dấu phân tách tệp và tiêu đề theo tệp đầu vào của bạn.

Nhấp vào chỉnh sửa lược đồ và thêm trường "dòng" làm loại chuỗi.

Trong tNomalize, cột để chuẩn hóa sẽ là dòng và dấu phân cách Mục sẽ là khoảng trắng -> ““. Bây giờ, hãy nhấp vào chỉnh sửa lược đồ. tNormalize sẽ có cột dòng và tAggregateRow sẽ có 2 cột word và wordcount như hình bên dưới.

Trong tAggregateRow, hãy đặt từ làm cột đầu ra trong Nhóm theo tùy chọn. Trong các phép toán, hãy đặt số lượng từ làm cột đầu ra, chức năng làm số đếm và vị trí cột Đầu vào dưới dạng dòng.

Bây giờ nhấp đúp vào thành phần tMap để vào trình chỉnh sửa bản đồ và ánh xạ đầu vào với đầu ra được yêu cầu. Trong ví dụ này, từ được ánh xạ với từ và số từ được ánh xạ với số từ. Trong cột biểu thức, nhấp vào […] để nhập trình tạo biểu thức.

Bây giờ, chọn StringHandling từ danh sách danh mục và chức năng UPCASE. Chỉnh sửa biểu thức thành “StringHandling.UPCASE (row3.word)” và nhấp vào Ok. Giữ row3.wordcount trong cột biểu thức tương ứng với wordcount như hình dưới đây.

Trong tHDFSOutput, hãy kết nối với cụm Hadoop mà chúng tôi đã tạo từ loại thuộc tính làm kho lưu trữ. Quan sát rằng các trường sẽ được tự động điền. Trong Tên tệp, cung cấp đường dẫn đầu ra mà bạn muốn lưu đầu ra. Giữ Action, dấu phân cách hàng và dấu phân cách trường như hình dưới đây.