Talend - Hive
Trong chương này, chúng ta hãy hiểu cách làm việc với Hive job trên Talend.
Tạo một công việc Talend Hive
Ví dụ: chúng tôi sẽ tải dữ liệu NYSE vào một bảng hive và chạy một truy vấn hive cơ bản. Nhấp chuột phải vào Job Design và tạo một công việc mới - hivejob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.
Thêm các thành phần vào Hive Job
Để gán các thành phần cho một công việc Hive, hãy kéo và thả năm thành phần lịch - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput và tLogRow từ pallet đến cửa sổ thiết kế. Sau đó, nhấp chuột phải vào tHiveConnection và tạo trình kích hoạt OnSubjobOk thành tHiveCreateTable. Bây giờ, nhấp chuột phải vào tHiveCreateTable và tạo trình kích hoạt OnSubjobOk để tHiveLoad. Nhấp chuột phải vào tHiveLoad và tạo trình kích hoạt lặp lại trên tHiveInput. Cuối cùng, nhấp chuột phải vào tHiveInput và tạo một dòng chính đến tLogRow.
Cấu hình các thành phần và biến đổi
Trong tHiveConnection, chọn phân phối dưới dạng cloudera và phiên bản của nó mà bạn đang sử dụng. Lưu ý rằng chế độ kết nối sẽ là độc lập và Hive Service sẽ là Hive 2. Ngoài ra, hãy kiểm tra xem các thông số sau có được đặt phù hợp hay không:
- Máy chủ: “quickstart.cloudera”
- Cổng: “10000”
- Cơ sở dữ liệu: "mặc định"
- Tên người dùng: “hive”
Lưu ý rằng mật khẩu sẽ được tự động điền, bạn không cần chỉnh sửa. Ngoài ra các thuộc tính Hadoop khác sẽ được đặt trước và đặt theo mặc định.
Trong tHiveCreateTable, chọn Sử dụng kết nối hiện có và đặt tHiveConnection trong danh sách Thành phần. Cung cấp Tên bảng mà bạn muốn tạo trong cơ sở dữ liệu mặc định. Giữ nguyên các thông số khác như hình bên dưới.
Trong tHiveLoad, chọn “Sử dụng kết nối hiện có” và đưa tHiveConnection vào danh sách thành phần. Chọn TẢI trong hành động Tải. Trong Đường dẫn tệp, cung cấp đường dẫn HDFS của tệp đầu vào NYSE của bạn. Đề cập đến bảng trong Tên bảng, trong đó bạn muốn tải đầu vào. Giữ nguyên các thông số khác như hình bên dưới.
Trong tHiveInput, chọn Sử dụng kết nối hiện có và đặt tHiveConnection trong danh sách Thành phần. Nhấp vào chỉnh sửa lược đồ, thêm các cột và kiểu của nó như được hiển thị trong ảnh chụp nhanh giản đồ bên dưới. Bây giờ đặt tên bảng mà bạn đã tạo trong tHiveCreateTable.
Đặt truy vấn của bạn trong tùy chọn truy vấn mà bạn muốn chạy trên bảng Hive. Ở đây chúng tôi đang in tất cả các cột của 10 hàng đầu tiên trong bảng tổ chức kiểm tra.
Trong tLogRow, nhấp vào cột đồng bộ và chọn Chế độ bảng để hiển thị đầu ra.
Thực hiện công việc Hive
Nhấp vào Run để bắt đầu thực hiện. Nếu tất cả kết nối và các tham số được đặt chính xác, bạn sẽ thấy đầu ra của truy vấn của mình như được hiển thị bên dưới.