Talend - Làm việc với lợn
Trong chương này, chúng ta hãy tìm hiểu cách làm việc với một công việc Pig trong Talend.
Tạo một công việc Talend Pig
Trong phần này, chúng ta hãy tìm hiểu cách thực hiện một công việc Pig trên Talend. Tại đây, chúng tôi sẽ xử lý dữ liệu NYSE để tìm ra khối lượng cổ phiếu trung bình của IBM.
Đối với điều này, nhấp chuột phải vào Job Design và tạo một công việc mới - pigjob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.
Thêm thành phần vào công việc lợn
Để thêm các thành phần vào Pig job, hãy kéo và thả bốn thành phần Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, từ pallet đến cửa sổ thiết kế.
Sau đó, nhấp chuột phải vào tPigLoad và tạo dòng Pig Combine thành tPigFilterRow. Tiếp theo, nhấp chuột phải vào tPigFilterRow và tạo dòng Pig Combine thành tPigAggregate. Nhấp chuột phải vào tPigAggregate và tạo dòng kết hợp Pig thành tPigStoreResult.
Cấu hình các thành phần và biến đổi
Trong tPigLoad, hãy đề cập đến phân phối dưới dạng cloudera và phiên bản của cloudera. Lưu ý rằng URI Namenode phải là “hdfs: //quickstart.cloudera: 8020” và Resource Manager phải là “quickstart.cloudera: 8020”. Ngoài ra, tên người dùng phải là “cloudera”.
Trong URI tệp đầu vào, cung cấp đường dẫn của tệp đầu vào NYSE của bạn đến công việc lợn. Lưu ý rằng tệp đầu vào này phải có trên HDFS.
Nhấp vào chỉnh sửa lược đồ, thêm các cột và kiểu của nó như được hiển thị bên dưới.
Trong tPigFilterRow, chọn tùy chọn “Sử dụng bộ lọc nâng cao” và đặt “stock_symbol = = 'IBM'” vào tùy chọn Bộ lọc.
Trong tAggregateRow, nhấp vào chỉnh sửa giản đồ và thêm cột avg_stock_volume vào đầu ra như hình dưới đây.
Bây giờ, hãy đặt cột stock_exchange trong Nhóm theo tùy chọn. Thêm cột avg_stock_volume trong trường Operations với hàm đếm và stock_exchange làm Cột đầu vào.
Trong tPigStoreResult, cung cấp đường dẫn đầu ra trong URI thư mục kết quả nơi bạn muốn lưu trữ kết quả của công việc Pig. Chọn chức năng cửa hàng làm Kho lưu trữ và phân tách trường (không bắt buộc) là “\ t”.
Thực hiện công việc lợn
Bây giờ hãy nhấp vào Run để thực hiện công việc Pig của bạn. (Bỏ qua các cảnh báo)
Khi công việc kết thúc, hãy kiểm tra kết quả đầu ra của bạn tại đường dẫn HDFS mà bạn đã đề cập để lưu trữ kết quả công việc lợn. Khối lượng cổ phiếu trung bình của IBM là 500.