Talend - Dữ liệu lớn

Dòng thẻ cho Open Studio với Dữ liệu lớn là “Đơn giản hóa ETL và ELT với công cụ ETL nguồn mở miễn phí hàng đầu cho dữ liệu lớn”. Trong chương này, chúng ta hãy xem xét việc sử dụng Talend như một công cụ để xử lý dữ liệu trên môi trường dữ liệu lớn.

Giới thiệu

Talend Open Studio - Big Data là một công cụ mã nguồn mở và miễn phí để xử lý dữ liệu của bạn rất dễ dàng trên môi trường dữ liệu lớn. Bạn có nhiều thành phần dữ liệu lớn có sẵn trong Talend Open Studio, cho phép bạn tạo và chạy các công việc Hadoop chỉ bằng cách kéo và thả một vài thành phần Hadoop đơn giản.

Bên cạnh đó, chúng ta không cần phải viết những dòng mã MapReduce lớn; Talend Open Studio Dữ liệu lớn giúp bạn làm điều này với các thành phần có trong đó. Nó tự động tạo mã MapReduce cho bạn, bạn chỉ cần kéo và thả các thành phần và cấu hình một vài tham số.

Nó cũng cung cấp cho bạn tùy chọn kết nối với một số bản phân phối Dữ liệu lớn như Cloudera, HortonWorks, MapR, Amazon EMR và thậm chí cả Apache.

Các thành phần Talend cho Dữ liệu lớn

Dưới đây là danh sách các danh mục có các thành phần để thực hiện công việc trên môi trường Dữ liệu lớn trong Big Data:

Dưới đây là danh sách các thành phần và kết nối Big Data trong Talend Open Studio:

tHDFSConnection - Được sử dụng để kết nối với HDFS (Hệ thống tệp phân tán Hadoop).
tHDFSInput - Đọc dữ liệu từ đường dẫn hdfs nhất định, đưa nó vào lược đồ talend và sau đó chuyển nó cho thành phần tiếp theo trong công việc.
tHDFSList - Truy xuất tất cả các tệp và thư mục trong đường dẫn hdfs nhất định.
tHDFSPut - Sao chép tệp / thư mục từ hệ thống tệp cục bộ (do người dùng xác định) sang hdfs theo đường dẫn nhất định.
tHDFSGet - Sao chép tệp / thư mục từ hdfs sang hệ thống tệp cục bộ (do người dùng xác định) theo đường dẫn nhất định.
tHDFSDelete - Xóa tệp khỏi HDFS
tHDFSExist - Kiểm tra xem tệp có trên HDFS hay không.
tHDFSOutput - Ghi các luồng dữ liệu trên HDFS.
tCassandraConnection - Mở kết nối tới máy chủ Cassandra.
tCassandraRow - Chạy các truy vấn CQL (ngôn ngữ truy vấn Cassandra) trên cơ sở dữ liệu được chỉ định.
tHBaseConnection - Mở kết nối đến Cơ sở dữ liệu HBase.
tHBaseInput - đọc dữ liệu từ cơ sở dữ liệu HBase.
tHiveConnection - Mở kết nối với cơ sở dữ liệu Hive.
tHiveCreateTable - Tạo một bảng bên trong cơ sở dữ liệu tổ ong.
tHiveInput - Đọc dữ liệu từ cơ sở dữ liệu tổ ong.
tHiveLoad - Ghi dữ liệu vào bảng hive hoặc một thư mục cụ thể.
tHiveRow - chạy các truy vấn HiveQL trên cơ sở dữ liệu được chỉ định.
tPigLoad - Tải dữ liệu đầu vào cho luồng đầu ra.
tPigMap - Được sử dụng để chuyển đổi và định tuyến dữ liệu trong một quy trình lợn.
tPigJoin - Thực hiện thao tác nối 2 tệp tin dựa trên các phím nối.
tPigCoGroup - Nhóm và tổng hợp dữ liệu đến từ nhiều đầu vào.
tPigSort - Sắp xếp dữ liệu đã cho dựa trên một hoặc nhiều khóa sắp xếp xác định.
tPigStoreResult - Lưu trữ kết quả từ hoạt động lợn tại một không gian lưu trữ xác định.
tPigFilterRow - Lọc các cột được chỉ định để tách dữ liệu dựa trên điều kiện đã cho.
tPigDistinct - Loại bỏ các bộ giá trị trùng lặp khỏi quan hệ.
tSqoopImport - Truyền dữ liệu từ cơ sở dữ liệu quan hệ như MySQL, Oracle DB sang HDFS.
tSqoopExport - Truyền dữ liệu từ HDFS sang cơ sở dữ liệu quan hệ như MySQL, Oracle DB