Talend - Hướng dẫn nhanh

Talend là một nền tảng tích hợp phần mềm cung cấp các giải pháp về Tích hợp dữ liệu, Chất lượng dữ liệu, Quản lý dữ liệu, Chuẩn bị dữ liệu và Dữ liệu lớn. Nhu cầu về các chuyên gia ETL có kiến ​​thức về Talend là cao. Ngoài ra, đây là công cụ ETL duy nhất có tất cả các plugin để tích hợp dễ dàng với hệ sinh thái Dữ liệu lớn.

Theo Gartner, Talend nằm trong góc phần tư ma thuật của Leaders cho các công cụ Tích hợp dữ liệu.

Talend cung cấp các sản phẩm thương mại khác nhau như được liệt kê bên dưới -

  • Chất lượng dữ liệu Talend
  • Tích hợp dữ liệu Talend
  • Chuẩn bị dữ liệu lịch
  • Talend Cloud
  • Talend Big Data
  • Nền tảng Talend MDM (Quản lý dữ liệu tổng thể)
  • Nền tảng dịch vụ dữ liệu Talend
  • Trình quản lý siêu dữ liệu Talend
  • Vải dữ liệu Talend

Talend cũng cung cấp Open Studio, là một công cụ miễn phí mã nguồn mở được sử dụng rộng rãi để Tích hợp dữ liệu và Dữ liệu lớn.

Sau đây là các yêu cầu hệ thống để tải xuống và hoạt động trên Talend Open Studio -

Hệ điều hành được đề xuất

  • Microsoft Windows 10
  • Ubuntu 16.04 LTS
  • Apple macOS 10.13 / High Sierra

Yêu cầu bộ nhớ

  • Bộ nhớ - Tối thiểu 4 GB, Khuyến nghị 8 GB
  • Dung lượng lưu trữ - 30 GB

Bên cạnh đó, bạn cũng cần một cụm Hadoop khởi động và chạy (tốt nhất là Cloudera.

Note - Java 8 phải có sẵn với các biến môi trường đã được thiết lập.

Để tải xuống Talend Open Studio cho Dữ liệu lớn và Tích hợp dữ liệu, vui lòng làm theo các bước được cung cấp bên dưới -

Step 1 - Vào trang: https://www.talend.com/products/big-data/big-data-open-studio/và nhấp vào nút tải xuống. Bạn có thể thấy rằng tệp TOS_BD_xxxxxxx.zip bắt đầu tải xuống.

Step 2 - Sau khi quá trình tải xuống hoàn tất, hãy giải nén nội dung của tệp zip, nó sẽ tạo ra một thư mục có tất cả các tệp Talend trong đó.

Step 3- Mở thư mục Talend và nhấp đúp vào tệp thực thi: TOS_BD-win-x86_64.exe. Chấp nhận Thỏa thuận Giấy phép Người dùng.

Step 4 - Tạo một dự án mới và nhấp vào Kết thúc.

Step 5 - Nhấp vào Cho phép truy cập trong trường hợp bạn nhận được Cảnh báo bảo mật của Windows.

Step 6 - Bây giờ, trang chào mừng của Talend Open Studio sẽ mở ra.

Step 7 - Nhấp vào Kết thúc để cài đặt các thư viện bên thứ ba cần thiết.

Step 8 - Chấp nhận các điều khoản và nhấp vào Hoàn tất.

Step 9 - Nhấp vào Có.

Bây giờ Talend Open Studio của bạn đã sẵn sàng với các thư viện cần thiết.

Talend Open Studio là một công cụ ETL mã nguồn mở miễn phí để Tích hợp dữ liệu và Dữ liệu lớn. Nó là một công cụ dành cho nhà phát triển và nhà thiết kế công việc dựa trên Eclipse. Bạn chỉ cần Kéo và Thả các thành phần và kết nối chúng để tạo và chạy ETL hoặc ETL Jobs. Công cụ sẽ tự động tạo mã Java cho công việc và bạn không cần viết một dòng mã nào.

Có nhiều tùy chọn để kết nối với các Nguồn dữ liệu như RDBMS, Excel, hệ sinh thái Dữ liệu lớn SaaS, cũng như các ứng dụng và công nghệ như SAP, CRM, Dropbox và nhiều hơn nữa.

Một số lợi ích quan trọng mà Talend Open Studio cung cấp như sau:

  • Cung cấp tất cả các tính năng cần thiết để tích hợp và đồng bộ hóa dữ liệu với 900 thành phần, trình kết nối tích hợp, chuyển đổi công việc sang mã Java tự động và hơn thế nữa.

  • Công cụ này hoàn toàn miễn phí, do đó tiết kiệm được nhiều chi phí.

  • Trong 12 năm qua, nhiều tổ chức khổng lồ đã áp dụng TOS để tích hợp dữ liệu, điều này cho thấy yếu tố tin cậy rất cao vào công cụ này.

  • Cộng đồng Talend về Tích hợp Dữ liệu rất tích cực.

  • Talend tiếp tục bổ sung các tính năng cho các công cụ này và các tài liệu được cấu trúc tốt và rất dễ theo dõi.

Hầu hết các tổ chức lấy dữ liệu từ nhiều nơi và được lưu trữ riêng. Bây giờ, nếu tổ chức phải thực hiện việc ra quyết định, nó phải lấy dữ liệu từ các nguồn khác nhau, đưa nó vào một cái nhìn thống nhất và sau đó phân tích nó để có được kết quả. Quá trình này được gọi là Tích hợp dữ liệu.

Những lợi ích

Tích hợp dữ liệu mang lại nhiều lợi ích như được mô tả bên dưới:

  • Cải thiện sự hợp tác giữa các nhóm khác nhau trong tổ chức đang cố gắng truy cập vào dữ liệu của tổ chức.

  • Tiết kiệm thời gian và giảm bớt phân tích dữ liệu vì dữ liệu được tích hợp một cách hiệu quả.

  • Quá trình tích hợp dữ liệu tự động sẽ đồng bộ hóa dữ liệu và giảm bớt thời gian thực và báo cáo định kỳ, nếu thực hiện thủ công thì rất tốn thời gian.

  • Dữ liệu được tích hợp từ nhiều nguồn sẽ trưởng thành và cải thiện theo thời gian, điều này cuối cùng giúp chất lượng dữ liệu tốt hơn.

Làm việc với các dự án

Trong phần này, hãy để chúng tôi hiểu cách làm việc trên các dự án Talend -

Tạo một dự án

Nhấp đúp vào tệp thực thi TOS Big Data, cửa sổ hiển thị bên dưới sẽ mở ra.

Chọn tùy chọn Tạo dự án mới, đề cập đến tên của dự án và nhấp vào Tạo.

Chọn dự án bạn đã tạo và nhấp vào Kết thúc.

Nhập một dự án

Nhấp đúp vào tệp thực thi TOS Big Data, bạn có thể thấy cửa sổ như hình dưới đây. Chọn tùy chọn Nhập một dự án demo và nhấp vào Chọn.

Bạn có thể chọn từ các tùy chọn được hiển thị bên dưới. Ở đây chúng tôi đang chọn Bản trình diễn tích hợp dữ liệu. Bây giờ, hãy nhấp vào Kết thúc.

Bây giờ, hãy đưa ra tên Dự án và mô tả. Nhấp vào Kết thúc.

Bạn có thể xem dự án đã nhập của mình trong danh sách dự án hiện có.

Bây giờ, hãy để chúng tôi hiểu cách nhập một dự án Talend hiện có.

Chọn tùy chọn Nhập một dự án hiện có và nhấp vào Chọn.

Đặt Tên dự án và chọn tùy chọn “Chọn thư mục gốc”.

Duyệt qua thư mục chính của dự án Talend hiện có của bạn và nhấp vào Kết thúc.

Dự án Talend hiện có của bạn sẽ được nhập.

Mở một dự án

Chọn một dự án từ dự án hiện có và nhấp vào Kết thúc. Điều này sẽ mở ra dự án Talend đó.

Xóa dự án

Để xóa một dự án, hãy nhấp vào Quản lý kết nối.

Nhấp vào Xóa (các) Dự án Hiện tại

Chọn dự án bạn muốn xóa và nhấp vào Ok.

Bấm OK một lần nữa.

Xuất dự án

Nhấp vào Tùy chọn xuất dự án.

Chọn dự án bạn muốn xuất và đưa ra đường dẫn đến nơi dự án sẽ được xuất. Nhấp vào Kết thúc.

Mô hình kinh doanh là một biểu diễn đồ họa của một dự án tích hợp dữ liệu. Nó là một đại diện phi kỹ thuật cho quy trình làm việc của doanh nghiệp.

Tại sao bạn cần Mô hình kinh doanh?

Mô hình kinh doanh được xây dựng để chỉ ra cho cấp quản lý cao hơn những gì bạn đang làm và nó cũng làm cho nhóm của bạn hiểu những gì bạn đang cố gắng hoàn thành. Thiết kế Mô hình Kinh doanh được coi là một trong những phương pháp hay nhất mà các tổ chức áp dụng khi bắt đầu dự án tích hợp dữ liệu của họ. Bên cạnh đó, giúp giảm chi phí, nó tìm và giải quyết các nút thắt trong dự án của bạn. Mô hình có thể được sửa đổi trong và sau khi thực hiện dự án, nếu được yêu cầu.

Tạo mô hình kinh doanh trong Talend Open Studio

Talend studio mở cung cấp nhiều hình dạng và trình kết nối để tạo và thiết kế một mô hình kinh doanh. Mỗi mô-đun trong một mô hình kinh doanh có thể có một tài liệu đính kèm với chính nó.

Talend Open Studio cung cấp các hình dạng và tùy chọn kết nối sau để tạo mô hình kinh doanh -

  • Decision - Hình dạng này được sử dụng để đặt điều kiện if trong mô hình.

  • Action - Hình dạng này được sử dụng để hiển thị bất kỳ chuyển đổi, dịch hoặc định dạng nào.

  • Terminal - Hình dạng này cho thấy loại thiết bị đầu cuối đầu ra.

  • Data - Hình dạng này được sử dụng kiểu dữ liệu hiển thị.

  • Document - Hình dạng này được sử dụng để chèn một đối tượng tài liệu có thể được sử dụng để nhập / xuất dữ liệu được xử lý.

  • Input - Hình dạng này được sử dụng để chèn đối tượng đầu vào mà người dùng có thể truyền dữ liệu theo cách thủ công.

  • List - Hình dạng này chứa dữ liệu được trích xuất và nó có thể được định nghĩa để chỉ chứa một số loại dữ liệu nhất định trong danh sách.

  • Database - Hình dạng này được sử dụng để giữ dữ liệu đầu vào / đầu ra.

  • Actor - Hình dạng này tượng trưng cho các cá nhân tham gia vào quá trình ra quyết định và kỹ thuật

  • Ellipse - Chèn một hình Ellipse.

    Gear - Hình dạng này hiển thị các chương trình thủ công đã được thay thế bằng các công việc Talend.

Tất cả các hoạt động trong Talend được thực hiện bởi các đầu nối và thành phần. Talend cung cấp hơn 800 đầu nối và thành phần để thực hiện một số hoạt động. Các thành phần này có trong bảng màu, và có 21 danh mục chính mà các thành phần thuộc về. Bạn có thể chọn các trình kết nối và chỉ cần kéo và thả nó trong ngăn trình thiết kế, nó sẽ tự động tạo mã java và mã này sẽ được biên dịch khi bạn lưu mã Talend.

Các danh mục chính chứa các thành phần được hiển thị bên dưới:

Sau đây là danh sách các trình kết nối và thành phần được sử dụng rộng rãi để tích hợp dữ liệu trong Talend Open Studio -

  • tMysqlConnection - Kết nối với cơ sở dữ liệu MySQL được xác định trong thành phần.

  • tMysqlInput - Chạy truy vấn cơ sở dữ liệu để đọc cơ sở dữ liệu và trích xuất các trường (bảng, dạng xem, v.v.) tùy thuộc vào truy vấn.

  • tMysqlOutput - Dùng để ghi, cập nhật, sửa đổi dữ liệu trong cơ sở dữ liệu MySQL.

  • tFileInputDelimited - Đọc một tệp được phân tách theo hàng và chia chúng thành các trường riêng biệt và chuyển nó cho thành phần tiếp theo.

  • tFileInputExcel - Đọc từng dòng một tệp excel và chia chúng thành các trường riêng biệt và chuyển nó cho thành phần tiếp theo.

  • tFileList - Lấy tất cả các tệp và thư mục từ một mẫu mặt nạ tệp nhất định.

  • tFileArchive - Nén một tập hợp các tệp hoặc thư mục thành tệp lưu trữ zip, gzip hoặc tar.gz.

  • tRowGenerator - Cung cấp trình soạn thảo nơi bạn có thể viết hàm hoặc chọn biểu thức để tạo dữ liệu mẫu của mình.

  • tMsgBox - Trả về một hộp thoại với thông báo được chỉ định và một nút OK.

  • tLogRow- Theo dõi dữ liệu được xử lý. Nó hiển thị dữ liệu / đầu ra trong bảng điều khiển chạy.

  • tPreJob - Xác định các công việc phụ sẽ chạy trước khi công việc thực sự của bạn bắt đầu.

  • tMap- Hoạt động như một plugin trong Talend studio. Nó lấy dữ liệu từ một hoặc nhiều nguồn, biến đổi nó và sau đó gửi dữ liệu đã biến đổi đến một hoặc nhiều đích.

  • tJoin - Ghép 2 bảng bằng cách thực hiện phép nối trong và nối ngoài giữa luồng chính và luồng tra cứu.

  • tJava - Cho phép bạn sử dụng mã java được cá nhân hóa trong chương trình Talend.

  • tRunJob - Quản lý hệ thống công việc phức tạp bằng cách chạy hết công việc Talend.

Đây là triển khai kỹ thuật / biểu diễn đồ họa của mô hình kinh doanh. Trong thiết kế này, một hoặc nhiều thành phần được kết nối với nhau để chạy quá trình tích hợp dữ liệu. Do đó, khi bạn kéo và thả các thành phần trong ngăn thiết kế và sau đó kết nối với các trình kết nối, một thiết kế công việc sẽ chuyển đổi mọi thứ thành mã và tạo ra một chương trình hoàn chỉnh có thể chạy được tạo thành luồng dữ liệu.

Tạo công việc

Trong cửa sổ kho, nhấp chuột phải vào Thiết kế Công việc và nhấp vào Tạo Công việc.

Cung cấp tên, mục đích và mô tả của công việc và nhấp vào Hoàn thành.

Bạn có thể thấy công việc của bạn đã được tạo trong Thiết kế công việc.

Bây giờ, chúng ta hãy sử dụng công việc này để thêm các thành phần, kết nối và cấu hình chúng. Ở đây, chúng ta sẽ lấy một tệp excel làm đầu vào và tạo tệp excel làm đầu ra với cùng một dữ liệu.

Thêm thành phần vào công việc

Có một số thành phần trong bảng màu để lựa chọn. Ngoài ra còn có một tùy chọn tìm kiếm, trong đó bạn có thể nhập tên của thành phần để chọn nó.

Vì ở đây chúng tôi đang lấy một tệp excel làm đầu vào, chúng tôi sẽ kéo và thả thành phần tFileInputExcel từ bảng màu vào cửa sổ Designer.

Bây giờ nếu bạn nhấp vào bất kỳ đâu trên cửa sổ trình thiết kế, một hộp tìm kiếm sẽ xuất hiện. Tìm tLogRow và chọn nó để đưa nó vào cửa sổ trình thiết kế.

Cuối cùng, chọn thành phần tFileOutputExcel từ bảng màu và kéo thả nó vào cửa sổ trình thiết kế.

Bây giờ, việc thêm các thành phần đã được thực hiện.

Kết nối các thành phần

Sau khi thêm các thành phần, bạn phải kết nối chúng. Nhấp chuột phải vào thành phần đầu tiên tFileInputExcel và vẽ một dòng Chính đến tLogRow như hình dưới đây.

Tương tự, nhấp chuột phải vào tLogRow và vẽ một dòng Chính trên tFileOutputExcel. Bây giờ, các thành phần của bạn đã được kết nối.

Cấu hình các thành phần

Sau khi thêm và kết nối các thành phần trong công việc, bạn cần phải cấu hình chúng. Đối với điều này, hãy nhấp đúp vào thành phần đầu tiên tFileInputExcel để cấu hình nó. Cung cấp đường dẫn của tệp đầu vào của bạn trong Tên tệp / luồng như hình dưới đây.

Nếu hàng thứ nhất của bạn trong excel có tên cột, hãy đặt 1 vào tùy chọn Tiêu đề.

Nhấp vào Chỉnh sửa lược đồ và thêm các cột và kiểu của nó theo tệp excel đầu vào của bạn. Nhấp vào Ok sau khi thêm lược đồ.

Nhấp vào Có.

Trong thành phần tLogRow, nhấp vào cột đồng bộ và chọn chế độ mà bạn muốn tạo các hàng từ đầu vào của mình. Ở đây chúng tôi đã chọn chế độ Cơ bản với “,” làm dấu phân tách trường.

Cuối cùng, trong thành phần tFileOutputExcel, cung cấp đường dẫn của tên tệp nơi bạn muốn lưu trữ

tệp excel đầu ra của bạn với tên trang tính. Click on sync columns.

Thực hiện công việc

Khi bạn đã hoàn tất việc thêm, kết nối và định cấu hình các thành phần của mình, bạn đã sẵn sàng thực hiện công việc Talend của mình. Nhấp vào nút Run để bắt đầu thực hiện.

Bạn sẽ thấy đầu ra ở chế độ cơ bản với dấu phân tách “,”.

Bạn cũng có thể thấy rằng đầu ra của bạn được lưu dưới dạng excel tại đường dẫn đầu ra mà bạn đã đề cập.

Siêu dữ liệu về cơ bản có nghĩa là dữ liệu về dữ liệu. Nó cho biết về cái gì, khi nào, tại sao, ai, ở đâu, cái nào và như thế nào của dữ liệu. Trong Talend, siêu dữ liệu có toàn bộ thông tin về dữ liệu có trong studio Talend. Tùy chọn siêu dữ liệu có bên trong ngăn Kho lưu trữ của Talend Open Studio.

Các nguồn khác nhau như Kết nối DB, các loại tệp khác nhau, LDAP, Azure, Salesforce, Dịch vụ Web FTP, Cụm Hadoop và nhiều tùy chọn khác có trong Siêu dữ liệu Talend.

Công dụng chính của siêu dữ liệu trong Talend Open Studio là bạn có thể sử dụng các nguồn dữ liệu này trong một số công việc chỉ bằng cách kéo và thả đơn giản từ Bảng điều khiển siêu dữ liệu trong kho lưu trữ.

Biến ngữ cảnh là những biến có thể có các giá trị khác nhau trong các môi trường khác nhau. Bạn có thể tạo một nhóm ngữ cảnh có thể chứa nhiều biến ngữ cảnh. Bạn không cần thêm từng biến ngữ cảnh vào một công việc, bạn có thể chỉ cần thêm nhóm ngữ cảnh vào công việc.

Các biến này được sử dụng để tạo mã sẵn sàng. Nó có nghĩa là bằng cách sử dụng các biến ngữ cảnh, bạn có thể di chuyển mã trong môi trường phát triển, thử nghiệm hoặc sản xuất, nó sẽ chạy trong tất cả các môi trường.

Trong bất kỳ công việc nào, bạn có thể vào tab Contexts như hình bên dưới và thêm các biến ngữ cảnh.

Trong chương này, chúng ta hãy xem xét việc quản lý công việc và các chức năng tương ứng có trong Talend.

Kích hoạt / Hủy kích hoạt một thành phần

Việc kích hoạt / hủy kích hoạt một thành phần rất đơn giản. Bạn chỉ cần chọn thành phần, nhấp chuột phải vào nó, và chọn tùy chọn hủy kích hoạt hoặc kích hoạt thành phần đó.

Nhập / xuất các mặt hàng và xây dựng công việc

Để xuất mục từ công việc, nhấp chuột phải vào công việc trong Thiết kế công việc và nhấp vào Xuất mục.

Nhập đường dẫn mà bạn muốn xuất mục và nhấp vào Kết thúc.

Để nhập mục từ công việc, nhấp chuột phải vào công việc trong Thiết kế công việc và nhấp vào Nhập mục.

Duyệt qua thư mục gốc từ nơi bạn muốn nhập các mục.

Chọn tất cả các hộp kiểm và nhấp vào Hoàn tất.

Trong chương này, chúng ta hãy hiểu cách xử lý thực thi công việc trong Talend.

Để xây dựng một công việc, hãy nhấp chuột phải vào công việc và chọn tùy chọn Build Job.

Đề cập đến đường dẫn bạn muốn lưu trữ công việc, chọn phiên bản công việc và loại bản dựng, sau đó nhấp vào Hoàn tất.

Cách chạy công việc ở chế độ bình thường

Để chạy một công việc trong một nút thông thường, bạn cần chọn “Chạy cơ bản” và nhấp vào nút Chạy để bắt đầu thực hiện.

Cách chạy công việc ở chế độ gỡ lỗi

Để chạy công việc ở chế độ gỡ lỗi, hãy thêm điểm ngắt vào các thành phần bạn muốn gỡ lỗi.

Sau đó, chọn và nhấp chuột phải vào thành phần, nhấp vào Thêm tùy chọn Breakpoint. Quan sát rằng ở đây chúng ta đã thêm các điểm ngắt vào các thành phần tFileInputExcel và tLogRow. Sau đó, chuyển đến Debug Run và nhấp vào nút Java Debug.

Bạn có thể quan sát từ ảnh chụp màn hình sau rằng công việc sẽ thực hiện ở chế độ gỡ lỗi và theo các điểm ngắt mà chúng tôi đã đề cập.

Cài đặt nâng cao

Trong cài đặt Nâng cao, bạn có thể chọn từ Thống kê, Thời gian thực thi, Lưu công việc trước khi thực hiện, Xóa trước khi chạy và cài đặt JVM. Mỗi tùy chọn này có chức năng như được giải thích ở đây -

  • Statistics - Nó hiển thị tỷ lệ hiệu suất của quá trình xử lý;

  • Exec Time - Thời gian thực hiện công việc.

  • Save Job before Execution - Tự động lưu công việc trước khi bắt đầu thực thi.

  • Clear before Run - Xóa mọi thứ khỏi bàn điều khiển đầu ra.

  • JVM Settings - Giúp chúng ta cấu hình các đối số Java của riêng mình.

Dòng thẻ cho Open Studio với Dữ liệu lớn là “Đơn giản hóa ETL và ELT với công cụ ETL nguồn mở miễn phí hàng đầu cho dữ liệu lớn”. Trong chương này, chúng ta hãy xem xét việc sử dụng Talend như một công cụ để xử lý dữ liệu trên môi trường dữ liệu lớn.

Giới thiệu

Talend Open Studio - Big Data là một công cụ mã nguồn mở và miễn phí để xử lý dữ liệu của bạn rất dễ dàng trên môi trường dữ liệu lớn. Bạn có nhiều thành phần dữ liệu lớn có sẵn trong Talend Open Studio, cho phép bạn tạo và chạy các công việc Hadoop chỉ bằng cách kéo và thả một vài thành phần Hadoop đơn giản.

Bên cạnh đó, chúng ta không cần phải viết những dòng mã MapReduce lớn; Talend Open Studio Dữ liệu lớn giúp bạn làm điều này với các thành phần có trong đó. Nó tự động tạo mã MapReduce cho bạn, bạn chỉ cần kéo và thả các thành phần và cấu hình một vài tham số.

Nó cũng cung cấp cho bạn tùy chọn kết nối với một số bản phân phối Dữ liệu lớn như Cloudera, HortonWorks, MapR, Amazon EMR và thậm chí cả Apache.

Các thành phần Talend cho Dữ liệu lớn

Danh sách các danh mục với các thành phần để chạy công việc trên môi trường Dữ liệu lớn được bao gồm trong Dữ liệu lớn, được hiển thị bên dưới:

Dưới đây là danh sách các thành phần và kết nối Big Data trong Talend Open Studio:

  • tHDFSConnection - Được sử dụng để kết nối với HDFS (Hệ thống tệp phân tán Hadoop).

  • tHDFSInput - Đọc dữ liệu từ đường dẫn hdfs đã cho, đưa nó vào lược đồ talend và sau đó chuyển nó cho thành phần tiếp theo trong công việc.

  • tHDFSList - Truy xuất tất cả các tệp và thư mục trong đường dẫn hdfs nhất định.

  • tHDFSPut - Sao chép tệp / thư mục từ hệ thống tệp cục bộ (do người dùng xác định) sang hdfs theo đường dẫn nhất định.

  • tHDFSGet - Sao chép tệp / thư mục từ hdfs sang hệ thống tệp cục bộ (do người dùng xác định) theo đường dẫn nhất định.

  • tHDFSDelete - Xóa tệp khỏi HDFS

  • tHDFSExist - Kiểm tra xem tệp có trên HDFS hay không.

  • tHDFSOutput - Ghi các luồng dữ liệu trên HDFS.

  • tCassandraConnection - Mở kết nối tới máy chủ Cassandra.

  • tCassandraRow - Chạy các truy vấn CQL (ngôn ngữ truy vấn Cassandra) trên cơ sở dữ liệu được chỉ định.

  • tHBaseConnection - Mở kết nối đến Cơ sở dữ liệu HBase.

  • tHBaseInput - đọc dữ liệu từ cơ sở dữ liệu HBase.

  • tHiveConnection - Mở kết nối với cơ sở dữ liệu Hive.

  • tHiveCreateTable - Tạo một bảng bên trong cơ sở dữ liệu tổ ong.

  • tHiveInput - Đọc dữ liệu từ cơ sở dữ liệu tổ ong.

  • tHiveLoad - Ghi dữ liệu vào bảng hive hoặc một thư mục cụ thể.

  • tHiveRow - chạy các truy vấn HiveQL trên cơ sở dữ liệu được chỉ định.

  • tPigLoad - Tải dữ liệu đầu vào cho luồng đầu ra.

  • tPigMap - Được sử dụng để chuyển đổi và định tuyến dữ liệu trong một quy trình lợn.

  • tPigJoin - Thực hiện thao tác nối 2 tệp tin dựa trên các phím nối.

  • tPigCoGroup - Nhóm và tổng hợp dữ liệu đến từ nhiều đầu vào.

  • tPigSort - Sắp xếp dữ liệu đã cho dựa trên một hoặc nhiều khóa sắp xếp xác định.

  • tPigStoreResult - Lưu trữ kết quả từ hoạt động lợn tại một không gian lưu trữ xác định.

  • tPigFilterRow - Lọc các cột được chỉ định để tách dữ liệu dựa trên điều kiện đã cho.

  • tPigDistinct - Loại bỏ các bộ giá trị trùng lặp khỏi quan hệ.

  • tSqoopImport - Truyền dữ liệu từ cơ sở dữ liệu quan hệ như MySQL, Oracle DB sang HDFS.

  • tSqoopExport - Truyền dữ liệu từ HDFS sang cơ sở dữ liệu quan hệ như MySQL, Oracle DB

Trong chương này, chúng ta hãy tìm hiểu chi tiết về cách Talend hoạt động với hệ thống tệp phân tán Hadoop.

Cài đặt và điều kiện tiên quyết

Trước khi tiến hành Talend với HDFS, chúng ta nên tìm hiểu về các cài đặt và điều kiện tiên quyết cần được đáp ứng cho mục đích này.

Ở đây chúng tôi đang chạy Cloudera quickstart 5.10 VM trên hộp ảo. Mạng chỉ dành cho máy chủ phải được sử dụng trong máy ảo này.

IP mạng chỉ dành cho máy chủ: 192.168.56.101

Bạn cũng phải có cùng một máy chủ chạy trên trình quản lý cloudera.

Bây giờ trên hệ thống windows của bạn, hãy truy cập c: \ Windows \ System32 \ Drivers \ etc \ hosts và chỉnh sửa tệp này bằng Notepad như hình dưới đây.

Tương tự, trên máy ảo khởi động nhanh cloudera của bạn, hãy chỉnh sửa tệp / etc / hosts của bạn như được hiển thị bên dưới.

sudo gedit /etc/hosts

Thiết lập kết nối Hadoop

Trong bảng kho lưu trữ, đi tới Siêu dữ liệu. Nhấp chuột phải vào Hadoop Cluster và tạo một cụm mới. Cung cấp tên, mục đích và mô tả cho kết nối cụm Hadoop này.

Bấm tiếp.

Chọn bản phân phối dưới dạng cloudera và chọn phiên bản bạn đang sử dụng. Chọn tùy chọn cấu hình truy xuất và nhấp vào Tiếp theo.

Nhập thông tin đăng nhập của người quản lý (URI với cổng, tên người dùng, mật khẩu) như hình dưới đây và nhấp vào Kết nối. Nếu các chi tiết là chính xác, bạn sẽ nhận được Cloudera QuickStart dưới các cụm được phát hiện.

Nhấp vào Tìm nạp. Thao tác này sẽ tìm nạp tất cả các kết nối và cấu hình cho HDFS, YARN, HBASE, HIVE.

Chọn Tất cả và nhấp vào Hoàn tất.

Lưu ý rằng tất cả các thông số kết nối sẽ được tự động điền. Đề cập đến cloudera trong tên người dùng và nhấp vào Hoàn tất.

Với điều này, bạn đã kết nối thành công với Cụm Hadoop.

Kết nối với HDFS

Trong công việc này, chúng tôi sẽ liệt kê tất cả các thư mục và tệp có trên HDFS.

Đầu tiên, chúng ta sẽ tạo một công việc và sau đó thêm các thành phần HDFS vào nó. Nhấp chuột phải vào Thiết kế Công việc và tạo một công việc mới - hadoopjob.

Bây giờ thêm 2 thành phần từ bảng màu - tHDFSConnection và tHDFSList. Nhấp chuột phải vào tHDFSConnection và kết nối 2 thành phần này bằng trình kích hoạt 'OnSubJobOk'.

Bây giờ, hãy cấu hình cả hai thành phần talend hdfs.

Trong tHDFSConnection, chọn Kho lưu trữ làm Loại Thuộc tính và chọn cụm Hadoop cloudera mà bạn đã tạo trước đó. Nó sẽ tự động điền tất cả các chi tiết cần thiết cần thiết cho thành phần này.

Trong tHDFSList, chọn “Sử dụng kết nối hiện có” và trong danh sách thành phần, chọn tHDFSConnection mà bạn đã định cấu hình.

Cung cấp đường dẫn trang chủ của HDFS trong tùy chọn HDFS Directory và nhấp vào nút duyệt ở bên phải.

Nếu bạn đã thiết lập kết nối đúng với các cấu hình nêu trên, bạn sẽ thấy một cửa sổ như hình dưới đây. Nó sẽ liệt kê tất cả các thư mục và tệp có trên trang chủ HDFS.

Bạn có thể xác minh điều này bằng cách kiểm tra HDFS của mình trên cloudera.

Đọc tệp từ HDFS

Trong phần này, hãy để chúng tôi hiểu cách đọc tệp từ HDFS trong Talend. Bạn có thể tạo một công việc mới cho mục đích này, tuy nhiên ở đây chúng tôi đang sử dụng công việc hiện có.

Kéo và thả 3 thành phần - tHDFSConnection, tHDFSInput và tLogRow từ bảng màu đến cửa sổ trình thiết kế.

Nhấp chuột phải vào tHDFSConnection và kết nối thành phần tHDFSInput bằng cách sử dụng trình kích hoạt 'OnSubJobOk'.

Nhấp chuột phải vào tHDFSInput và kéo một liên kết chính đến tLogRow.

Lưu ý rằng tHDFSConnection sẽ có cấu hình tương tự như trước đó. Trong tHDFSInput, chọn “Sử dụng kết nối hiện có” và từ danh sách thành phần, chọn tHDFSConnection.

Trong Tên tệp, cung cấp đường dẫn HDFS của tệp bạn muốn đọc. Ở đây chúng ta đang đọc một tệp văn bản đơn giản, vì vậy Loại Tệp của chúng ta là Tệp Văn bản. Tương tự, tùy thuộc vào thông tin đầu vào của bạn, hãy điền vào các chi tiết phân tách hàng, phân tách trường và tiêu đề như được đề cập bên dưới. Cuối cùng, nhấp vào nút Chỉnh sửa lược đồ.

Vì tệp của chúng tôi chỉ có văn bản thuần túy, chúng tôi chỉ thêm một cột kiểu Chuỗi. Bây giờ, hãy nhấp vào Ok.

Note - Khi đầu vào của bạn có nhiều cột thuộc các loại khác nhau, bạn cần phải đề cập đến lược đồ ở đây cho phù hợp.

Trong thành phần tLogRow, nhấp vào Đồng bộ hóa cột trong chỉnh sửa giản đồ.

Chọn chế độ mà bạn muốn in đầu ra của mình.

Cuối cùng, nhấn Run để thực thi công việc.

Khi bạn đã đọc thành công tệp HDFS, bạn có thể thấy kết quả sau.

Ghi tệp sang HDFS

Hãy xem làm thế nào để viết một tệp từ HDFS trong Talend. Kéo và thả 3 thành phần - tHDFSConnection, tFileInputDelimited và tHDFSOutput từ bảng màu đến cửa sổ trình thiết kế.

Nhấp chuột phải vào tHDFSConnection và kết nối thành phần tFileInputDelimited bằng cách sử dụng trình kích hoạt 'OnSubJobOk'.

Nhấp chuột phải vào tFileInputDelimited và kéo một liên kết chính đến tHDFSOutput.

Lưu ý rằng tHDFSConnection sẽ có cấu hình tương tự như trước đó.

Bây giờ, trong tFileInputDelimited, cung cấp đường dẫn của tệp đầu vào trong tùy chọn Tên tệp / Luồng. Ở đây chúng tôi đang sử dụng tệp csv làm đầu vào, do đó dấu phân tách trường là “,”.

Chọn đầu trang, chân trang, giới hạn theo tệp đầu vào của bạn. Lưu ý rằng ở đây tiêu đề của chúng ta là 1 vì hàng 1 chứa tên cột và giới hạn là 3 vì chúng ta chỉ ghi 3 hàng đầu tiên vào HDFS.

Bây giờ, hãy nhấp vào chỉnh sửa lược đồ.

Bây giờ, theo tệp đầu vào của chúng tôi, hãy xác định lược đồ. Tệp đầu vào của chúng tôi có 3 cột như được đề cập bên dưới.

Trong thành phần tHDFSOutput, bấm vào cột đồng bộ. Sau đó, chọn tHDFSConnection trong Sử dụng kết nối hiện có. Ngoài ra, trong Tên tệp, cung cấp đường dẫn HDFS nơi bạn muốn ghi tệp của mình.

Lưu ý rằng loại tệp sẽ là tệp văn bản, Hành động sẽ là “tạo”, dấu phân tách hàng sẽ là “\ n” và dấu phân cách trường là “;”

Cuối cùng, nhấn Run để thực hiện công việc của bạn. Khi công việc đã thực thi thành công, hãy kiểm tra xem tệp của bạn có trên HDFS hay không.

Chạy lệnh hdfs sau với đường dẫn đầu ra mà bạn đã đề cập trong công việc của mình.

hdfs dfs -cat /input/talendwrite

Bạn sẽ thấy kết quả sau nếu bạn ghi thành công trên HDFS.

Trong chương trước, chúng ta đã biết cách Talend hoạt động với Dữ liệu lớn. Trong chương này, chúng ta hãy hiểu cách sử dụng bản đồ Reduce với Talend.

Tạo một bản đồ lịch

Hãy để chúng tôi tìm hiểu cách thực hiện một công việc MapReduce trên Talend. Ở đây chúng tôi sẽ chạy một ví dụ đếm từ MapReduce.

Với mục đích này, hãy nhấp chuột phải vào Thiết kế Công việc và tạo một công việc mới - MapreduceJob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.

Thêm các thành phần vào công việc MapReduce

Để thêm các thành phần vào một công việc MapReduce, hãy kéo và thả năm thành phần của Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput từ pallet đến cửa sổ thiết kế. Nhấp chuột phải vào tHDFSInput và tạo liên kết chính đến tNormalize.

Nhấp chuột phải vào tNormalize và tạo liên kết chính đến tAggregateRow. Sau đó, nhấp chuột phải vào tAggregateRow và tạo liên kết chính đến tMap. Bây giờ, nhấp chuột phải vào tMap và tạo liên kết chính đến tHDFSOutput.

Cấu hình các thành phần và biến đổi

Trong tHDFSInput, chọn cloudera phân phối và phiên bản của nó. Lưu ý rằng URI Namenode phải là “hdfs: //quickstart.cloudera: 8020” và tên người dùng phải là “cloudera”. Trong tùy chọn tên tệp, hãy cung cấp đường dẫn của tệp đầu vào của bạn đến công việc MapReduce. Đảm bảo rằng tệp đầu vào này có trên HDFS.

Bây giờ, hãy chọn loại tệp, dấu phân cách hàng, dấu phân tách tệp và tiêu đề theo tệp đầu vào của bạn.

Nhấp vào chỉnh sửa lược đồ và thêm trường "dòng" làm loại chuỗi.

Trong tNomalize, cột để chuẩn hóa sẽ là dòng và dấu phân cách Mục sẽ là khoảng trắng -> ““. Bây giờ, hãy nhấp vào chỉnh sửa lược đồ. tNormalize sẽ có cột dòng và tAggregateRow sẽ có 2 cột word và wordcount như hình bên dưới.

Trong tAggregateRow, hãy đặt từ làm cột đầu ra trong Nhóm theo tùy chọn. Trong các phép toán, hãy đặt số lượng từ làm cột đầu ra, chức năng làm số đếm và vị trí cột Đầu vào dưới dạng dòng.

Bây giờ nhấp đúp vào thành phần tMap để vào trình chỉnh sửa bản đồ và ánh xạ đầu vào với đầu ra được yêu cầu. Trong ví dụ này, từ được ánh xạ với từ và số từ được ánh xạ với số từ. Trong cột biểu thức, nhấp vào […] để nhập trình tạo biểu thức.

Bây giờ, chọn StringHandling từ danh sách danh mục và chức năng UPCASE. Chỉnh sửa biểu thức thành “StringHandling.UPCASE (row3.word)” và nhấp vào Ok. Giữ row3.wordcount trong cột biểu thức tương ứng với wordcount như hình dưới đây.

Trong tHDFSOutput, hãy kết nối với cụm Hadoop mà chúng tôi đã tạo từ loại thuộc tính làm kho lưu trữ. Quan sát rằng các trường sẽ được tự động điền. Trong Tên tệp, cung cấp đường dẫn đầu ra mà bạn muốn lưu đầu ra. Giữ Action, dấu phân cách hàng và dấu phân cách trường như hình dưới đây.

Thực hiện công việc MapReduce

Khi cấu hình của bạn được hoàn tất thành công, hãy nhấp vào Chạy và thực hiện công việc MapReduce của bạn.

Đi tới đường dẫn HDFS của bạn và kiểm tra đầu ra. Lưu ý rằng tất cả các từ sẽ được viết hoa với số từ của chúng.

Trong chương này, chúng ta hãy tìm hiểu cách làm việc với một công việc Pig trong Talend.

Tạo một công việc Talend Pig

Trong phần này, chúng ta hãy tìm hiểu cách thực hiện một công việc Pig trên Talend. Tại đây, chúng tôi sẽ xử lý dữ liệu NYSE để tìm ra khối lượng cổ phiếu trung bình của IBM.

Đối với điều này, nhấp chuột phải vào Job Design và tạo một công việc mới - pigjob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.

Thêm thành phần vào công việc lợn

Để thêm các thành phần vào Pig job, hãy kéo và thả bốn thành phần Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, từ pallet đến cửa sổ thiết kế.

Sau đó, nhấp chuột phải vào tPigLoad và tạo dòng Pig Combine thành tPigFilterRow. Tiếp theo, nhấp chuột phải vào tPigFilterRow và tạo dòng Pig Combine thành tPigAggregate. Nhấp chuột phải vào tPigAggregate và tạo dòng kết hợp Pig thành tPigStoreResult.

Cấu hình các thành phần và biến đổi

Trong tPigLoad, hãy đề cập đến phân phối dưới dạng cloudera và phiên bản của cloudera. Lưu ý rằng URI Namenode phải là “hdfs: //quickstart.cloudera: 8020” và Resource Manager phải là “quickstart.cloudera: 8020”. Ngoài ra, tên người dùng phải là “cloudera”.

Trong URI tệp đầu vào, cung cấp đường dẫn của tệp đầu vào NYSE của bạn đến công việc lợn. Lưu ý rằng tệp đầu vào này phải có trên HDFS.

Nhấp vào chỉnh sửa lược đồ, thêm các cột và kiểu của nó như được hiển thị bên dưới.

Trong tPigFilterRow, chọn tùy chọn “Sử dụng bộ lọc nâng cao” và đặt “stock_symbol = = 'IBM'” vào tùy chọn Bộ lọc.

Trong tAggregateRow, nhấp vào chỉnh sửa giản đồ và thêm cột avg_stock_volume vào đầu ra như hình dưới đây.

Bây giờ, hãy đặt cột stock_exchange trong Nhóm theo tùy chọn. Thêm cột avg_stock_volume trong trường Operations với hàm đếm và stock_exchange làm Cột đầu vào.

Trong tPigStoreResult, cung cấp đường dẫn đầu ra trong URI thư mục kết quả nơi bạn muốn lưu trữ kết quả của công việc Pig. Chọn chức năng cửa hàng làm Kho lưu trữ và phân tách trường (không bắt buộc) là “\ t”.

Thực hiện công việc lợn

Bây giờ hãy nhấp vào Run để thực hiện công việc Pig của bạn. (Bỏ qua các cảnh báo)

Khi công việc kết thúc, hãy kiểm tra kết quả đầu ra của bạn tại đường dẫn HDFS mà bạn đã đề cập để lưu trữ kết quả công việc lợn. Khối lượng cổ phiếu trung bình của IBM là 500.

Trong chương này, chúng ta hãy hiểu cách làm việc với Hive job trên Talend.

Tạo một công việc Talend Hive

Ví dụ: chúng tôi sẽ tải dữ liệu NYSE vào một bảng hive và chạy một truy vấn hive cơ bản. Nhấp chuột phải vào Job Design và tạo một công việc mới - hivejob. Đề cập đến các chi tiết của công việc và nhấp vào Hoàn tất.

Thêm các thành phần vào Hive Job

Để gán các thành phần cho một công việc Hive, hãy kéo và thả năm thành phần lịch - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput và tLogRow từ pallet đến cửa sổ thiết kế. Sau đó, nhấp chuột phải vào tHiveConnection và tạo trình kích hoạt OnSubjobOk thành tHiveCreateTable. Bây giờ, nhấp chuột phải vào tHiveCreateTable và tạo trình kích hoạt OnSubjobOk để tHiveLoad. Nhấp chuột phải vào tHiveLoad và tạo trình kích hoạt lặp lại trên tHiveInput. Cuối cùng, nhấp chuột phải vào tHiveInput và tạo một dòng chính đến tLogRow.

Cấu hình các thành phần và biến đổi

Trong tHiveConnection, chọn phân phối dưới dạng cloudera và phiên bản của nó mà bạn đang sử dụng. Lưu ý rằng chế độ kết nối sẽ là độc lập và Hive Service sẽ là Hive 2. Ngoài ra, hãy kiểm tra xem các thông số sau có được đặt phù hợp hay không:

  • Máy chủ: “quickstart.cloudera”
  • Cổng: “10000”
  • Cơ sở dữ liệu: "mặc định"
  • Tên người dùng: “hive”

Lưu ý rằng mật khẩu sẽ được tự động điền, bạn không cần chỉnh sửa. Ngoài ra các thuộc tính Hadoop khác sẽ được đặt trước và đặt theo mặc định.

Trong tHiveCreateTable, chọn Sử dụng kết nối hiện có và đặt tHiveConnection trong danh sách Thành phần. Cung cấp Tên bảng mà bạn muốn tạo trong cơ sở dữ liệu mặc định. Giữ nguyên các thông số khác như hình bên dưới.

Trong tHiveLoad, chọn “Sử dụng kết nối hiện có” và đưa tHiveConnection vào danh sách thành phần. Chọn TẢI trong hành động Tải. Trong Đường dẫn tệp, cung cấp đường dẫn HDFS của tệp đầu vào NYSE của bạn. Đề cập đến bảng trong Tên bảng, trong đó bạn muốn tải đầu vào. Giữ nguyên các thông số khác như hình bên dưới.

Trong tHiveInput, chọn Sử dụng kết nối hiện có và đặt tHiveConnection trong danh sách Thành phần. Nhấp vào chỉnh sửa lược đồ, thêm các cột và kiểu của nó như được hiển thị trong ảnh chụp nhanh giản đồ bên dưới. Bây giờ đặt tên bảng mà bạn đã tạo trong tHiveCreateTable.

Đặt truy vấn của bạn trong tùy chọn truy vấn mà bạn muốn chạy trên bảng Hive. Ở đây chúng tôi đang in tất cả các cột của 10 hàng đầu tiên trong bảng tổ chức kiểm tra.

Trong tLogRow, nhấp vào cột đồng bộ và chọn Chế độ bảng để hiển thị đầu ra.

Thực hiện công việc Hive

Nhấp vào Run để bắt đầu thực hiện. Nếu tất cả kết nối và các tham số được đặt chính xác, bạn sẽ thấy đầu ra của truy vấn của mình như được hiển thị bên dưới.