Talend - Panduan Cepat
Talend adalah platform integrasi perangkat lunak yang memberikan solusi untuk integrasi data, kualitas data, manajemen data, persiapan data dan data besar. Permintaan akan profesional ETL yang memiliki pengetahuan tentang Talend tinggi. Selain itu, ini adalah satu-satunya alat ETL dengan semua plugin untuk diintegrasikan dengan ekosistem Big Data dengan mudah.
Menurut Gartner, Talend termasuk dalam kuadran ajaib Pemimpin untuk alat Integrasi Data.
Talend menawarkan berbagai produk komersial seperti yang tercantum di bawah ini -
- Kualitas Data Talend
- Integrasi Data Talend
- Persiapan Data Talend
- Talend Cloud
- Talend Big Data
- Platform Talend MDM (Manajemen Data Master)
- Platform Layanan Data Talend
- Manajer Metadata Talend
- Talend Data Fabric
Talend juga menawarkan Open Studio, yang merupakan alat gratis sumber terbuka yang digunakan secara luas untuk Integrasi Data dan Big Data.
Berikut ini adalah persyaratan sistem untuk mengunduh dan mengerjakan Talend Open Studio -
Sistem Operasi yang Direkomendasikan
- Microsoft Windows 10
- Ubuntu 16.04 LTS
- Apple macOS 10.13 / High Sierra
Persyaratan Memori
- Memori - Minimum 4 GB, Disarankan 8 GB
- Ruang Penyimpanan - 30 GB
Selain itu, Anda juga memerlukan cluster Hadoop yang aktif dan berjalan (sebaiknya Cloudera.
Note - Java 8 harus tersedia dengan variabel lingkungan yang sudah disetel.
Untuk mengunduh Talend Open Studio untuk Big Data dan Integrasi Data, ikuti langkah-langkah yang diberikan di bawah ini -
Step 1 - Buka halaman: https://www.talend.com/products/big-data/big-data-open-studio/dan klik tombol unduh. Anda dapat melihat bahwa file TOS_BD_xxxxxxx.zip mulai diunduh.
Step 2 - Setelah pengunduhan selesai, ekstrak konten dari file zip tersebut, itu akan membuat folder dengan semua file Talend di dalamnya.
Step 3- Buka folder Talend dan klik dua kali file yang dapat dieksekusi: TOS_BD-win-x86_64.exe. Terima Perjanjian Lisensi Pengguna.
Step 4 - Buat proyek baru dan klik Selesai.
Step 5 - Klik Izinkan Akses jika Anda mendapatkan Peringatan Keamanan Windows.
Step 6 - Sekarang, halaman selamat datang Talend Open Studio akan terbuka.
Step 7 - Klik Selesai untuk menginstal pustaka pihak ketiga yang diperlukan.
Step 8 - Terima persyaratan dan klik Selesai.
Step 9 - Klik Ya.
Sekarang Talend Open Studio Anda siap dengan pustaka yang diperlukan.
Talend Open Studio adalah alat ETL open source gratis untuk Integrasi Data dan Big Data. Ini adalah alat pengembang dan perancang pekerjaan berbasis Eclipse. Anda hanya perlu Drag and Drop komponen dan menghubungkannya untuk membuat dan menjalankan ETL atau ETL Jobs. Alat ini akan membuat kode Java untuk pekerjaan tersebut secara otomatis dan Anda tidak perlu menulis satu baris kode pun.
Ada beberapa opsi untuk terhubung dengan Sumber Data seperti RDBMS, Excel, ekosistem SaaS Big Data, serta aplikasi dan teknologi seperti SAP, CRM, Dropbox, dan banyak lagi.
Beberapa keuntungan penting yang ditawarkan Talend Open Studio adalah sebagai berikut -
Menyediakan semua fitur yang diperlukan untuk integrasi dan sinkronisasi data dengan 900 komponen, konektor built-in, mengonversi tugas ke kode Java secara otomatis dan banyak lagi.
Alat ini sepenuhnya gratis, oleh karena itu ada penghematan biaya yang besar.
Dalam 12 tahun terakhir, beberapa organisasi raksasa telah mengadopsi TOS untuk integrasi Data, yang menunjukkan faktor kepercayaan yang sangat tinggi pada alat ini.
Komunitas Talend untuk Integrasi Data sangat aktif.
Talend terus menambahkan fitur ke alat ini dan dokumentasinya terstruktur dengan baik dan sangat mudah diikuti.
Sebagian besar organisasi mendapatkan data dari berbagai tempat dan menyimpannya secara terpisah. Sekarang jika organisasi harus melakukan pengambilan keputusan, ia harus mengambil data dari sumber yang berbeda, meletakkannya dalam tampilan terpadu dan kemudian menganalisisnya untuk mendapatkan hasil. Proses ini disebut sebagai Integrasi Data.
Manfaat
Integrasi Data menawarkan banyak manfaat seperti yang dijelaskan di bawah ini -
Meningkatkan kolaborasi antara tim yang berbeda dalam organisasi yang mencoba mengakses data organisasi.
Menghemat waktu dan memudahkan analisis data, karena data terintegrasi secara efektif.
Proses integrasi data otomatis menyinkronkan data dan memudahkan pelaporan real time dan berkala, yang sebaliknya akan memakan waktu jika dilakukan secara manual.
Data yang terintegrasi dari beberapa sumber menjadi matang dan meningkat seiring waktu, yang pada akhirnya membantu dalam kualitas data yang lebih baik.
Bekerja dengan Proyek
Di bagian ini, mari kita pahami cara mengerjakan proyek Talend -
Membuat Proyek
Klik dua kali pada file eksekusi TOS Big Data, jendela yang ditunjukkan di bawah ini akan terbuka.
Pilih opsi Buat proyek baru, sebutkan nama proyek dan klik Buat.
Pilih proyek yang Anda buat dan klik Selesai.
Mengimpor Proyek
Klik dua kali pada file executable TOS Big Data, Anda dapat melihat jendela seperti yang ditunjukkan di bawah ini. Pilih opsi Impor proyek demo dan klik Pilih.
Anda dapat memilih dari opsi yang ditunjukkan di bawah ini. Di sini kami memilih Demo Integrasi Data. Sekarang, klik Selesai.
Sekarang, berikan nama dan deskripsi Proyek. Klik Selesai.
Anda dapat melihat proyek yang Anda impor di bawah daftar proyek yang ada.
Sekarang, mari kita pahami cara mengimpor proyek Talend yang sudah ada.
Pilih Impor opsi proyek yang ada dan klik Pilih.
Berikan Nama Proyek dan pilih opsi "Pilih direktori root".
Jelajahi direktori utama proyek Talend Anda yang ada dan klik Selesai.
Proyek Talend Anda yang ada akan diimpor.
Membuka Proyek
Pilih proyek dari proyek yang ada dan klik Selesai. Ini akan membuka proyek Talend itu.
Menghapus Proyek
Untuk menghapus proyek, klik Kelola Koneksi.
Klik Hapus Proyek yang Ada
Pilih proyek yang ingin Anda hapus dan klik Ok.
Klik OK lagi.
Mengekspor Proyek
Klik opsi Ekspor proyek.
Pilih proyek yang ingin Anda ekspor dan berikan jalur ke mana proyek itu harus diekspor. Klik Selesai.
Model Bisnis adalah representasi grafis dari proyek integrasi data. Ini adalah representasi non-teknis dari alur kerja bisnis.
Mengapa Anda membutuhkan Model Bisnis?
Model bisnis dibangun untuk menunjukkan kepada manajemen yang lebih tinggi apa yang Anda lakukan, dan itu juga membuat tim Anda memahami apa yang ingin Anda capai. Merancang Model Bisnis dianggap sebagai salah satu praktik terbaik yang diadopsi organisasi pada awal proyek integrasi data mereka. Selain itu, membantu mengurangi biaya, menemukan dan mengatasi kemacetan dalam proyek Anda. Model dapat dimodifikasi selama dan setelah implementasi proyek, jika diperlukan.
Membuat Model Bisnis di Talend Open Studio
Studio terbuka Talend menyediakan berbagai bentuk dan konektor untuk membuat dan merancang model bisnis. Setiap modul dalam model bisnis dapat memiliki dokumentasi yang melekat padanya.
Talend Open Studio menawarkan bentuk dan pilihan konektor berikut untuk membuat model bisnis -
Decision - Bentuk ini digunakan untuk memasang kondisi if pada model.
Action - Bentuk ini digunakan untuk menunjukkan transformasi, terjemahan, atau pemformatan apa pun.
Terminal - Bentuk ini menunjukkan tipe terminal keluaran.
Data - Bentuk ini digunakan tipe data acara.
Document - Bentuk ini digunakan untuk memasukkan objek dokumen yang dapat digunakan untuk input / output dari data yang diolah.
Input - Bentuk ini digunakan untuk memasukkan objek input yang digunakan pengguna untuk mengirimkan data secara manual.
List - Bentuk ini berisi data yang diekstrak dan dapat didefinisikan untuk menampung hanya jenis data tertentu dalam daftar.
Database - Bentuk ini digunakan untuk menampung data masukan / keluaran.
Actor - Bentuk ini melambangkan individu yang terlibat dalam pengambilan keputusan dan proses teknis
Ellipse - Menyisipkan bentuk Ellipse.
Gear - Bentuk ini menunjukkan program manual yang harus diganti dengan pekerjaan Talend.
Semua operasi di Talend dilakukan oleh konektor dan komponen. Talend menawarkan 800+ konektor dan komponen untuk melakukan beberapa operasi. Komponen-komponen ini ada dalam palet, dan ada 21 kategori utama komponen-komponen tersebut. Anda dapat memilih konektor dan cukup seret dan lepas di panel desainer, itu akan membuat kode java secara otomatis yang akan dikompilasi saat Anda menyimpan kode Talend.
Kategori utama yang berisi komponen ditunjukkan di bawah ini -
Berikut ini adalah daftar konektor dan komponen yang banyak digunakan untuk integrasi data di Talend Open Studio -
tMysqlConnection - Menghubungkan ke database MySQL yang ditentukan dalam komponen.
tMysqlInput - Menjalankan kueri database untuk membaca database dan mengekstrak kolom (tabel, tampilan, dll.) Bergantung pada kueri.
tMysqlOutput - Digunakan untuk menulis, memperbarui, mengubah data dalam database MySQL.
tFileInputDelimited - Membaca file yang dipisahkan baris demi baris dan membaginya menjadi bidang terpisah dan meneruskannya ke komponen berikutnya.
tFileInputExcel - Membaca file excel baris demi baris dan membaginya menjadi beberapa bidang dan meneruskannya ke komponen berikutnya.
tFileList - Mendapatkan semua file dan direktori dari pola topeng file tertentu.
tFileArchive - Mengompresi satu set file atau folder ke file arsip zip, gzip atau tar.gz.
tRowGenerator - Menyediakan editor tempat Anda dapat menulis fungsi atau memilih ekspresi untuk menghasilkan data sampel Anda.
tMsgBox - Mengembalikan kotak dialog dengan pesan yang ditentukan dan tombol OK.
tLogRow- Memantau data yang diproses. Ini menampilkan data / output di konsol run.
tPreJob - Mendefinisikan sub pekerjaan yang akan dijalankan sebelum pekerjaan aktual Anda dimulai.
tMap- Bertindak sebagai plugin di studio Talend. Ini mengambil data dari satu atau lebih sumber, mengubahnya, dan kemudian mengirimkan data yang diubah ke satu atau beberapa tujuan.
tJoin - Menggabungkan 2 tabel dengan melakukan gabungan dalam dan luar antara aliran utama dan aliran pencarian.
tJava - Memungkinkan Anda untuk menggunakan kode java yang dipersonalisasi dalam program Talend.
tRunJob - Mengelola sistem pekerjaan yang kompleks dengan menjalankan pekerjaan Talend satu demi satu.
Ini adalah implementasi teknis / representasi grafis dari model bisnis. Dalam desain ini, satu atau lebih komponen dihubungkan satu sama lain untuk menjalankan proses integrasi data. Jadi, saat Anda menyeret dan melepas komponen di panel desain dan kemudian menyambungkannya dengan konektor, desain pekerjaan mengonversi semuanya menjadi kode dan membuat program yang dapat dijalankan lengkap yang membentuk aliran data.
Membuat Pekerjaan
Di jendela repositori, klik kanan Desain Pekerjaan dan klik Buat Pekerjaan.
Berikan nama, tujuan dan deskripsi pekerjaan dan klik Selesai.
Anda dapat melihat pekerjaan Anda telah dibuat di bawah Desain Pekerjaan.
Sekarang, mari kita gunakan pekerjaan ini untuk menambahkan komponen, menghubungkan dan mengkonfigurasinya. Di sini kita akan mengambil file excel sebagai input dan menghasilkan file excel sebagai output dengan data yang sama.
Menambahkan Komponen ke Pekerjaan
Ada beberapa komponen di palet yang bisa dipilih. Ada juga opsi pencarian, di mana Anda dapat memasukkan nama komponen untuk memilihnya.
Karena, di sini kita mengambil file excel sebagai input, kita akan menarik dan melepas komponen tFileInputExcel dari palet ke jendela Designer.
Sekarang jika Anda mengklik di mana saja di jendela desainer, kotak pencarian akan muncul. Temukan tLogRow dan pilih untuk membawanya ke jendela desainer.
Terakhir, pilih komponen tFileOutputExcel dari palet dan seret jatuhkan di jendela desainer.
Sekarang, penambahan komponen sudah selesai.
Menghubungkan Komponen
Setelah menambahkan komponen, Anda harus menghubungkannya. Klik kanan komponen pertama tFileInputExcel dan gambar garis Utama ke tLogRow seperti yang ditunjukkan di bawah ini.
Demikian pula, klik kanan tLogRow dan gambar garis Utama di tFileOutputExcel. Sekarang, komponen Anda telah terhubung.
Konfigurasi komponen
Setelah menambahkan dan menghubungkan komponen dalam pekerjaan, Anda perlu mengkonfigurasinya. Untuk ini, klik dua kali komponen pertama tFileInputExcel untuk mengkonfigurasinya. Berikan path file input Anda di File name / stream seperti yang ditunjukkan di bawah ini.
Jika Anda 1 st baris dalam excel adalah memiliki nama kolom, menempatkan 1 pada opsi header.
Klik Edit skema dan tambahkan kolom dan tipenya sesuai dengan file excel input Anda. Klik Ok setelah menambahkan skema.
Klik Yes.
Dalam komponen tLogRow, klik pada kolom sinkronisasi dan pilih mode di mana Anda ingin membuat baris dari masukan Anda. Di sini kami telah memilih mode Dasar dengan "," sebagai pemisah bidang.
Terakhir, pada komponen tFileOutputExcel, berikan jalur nama file tempat Anda ingin menyimpan
file excel output Anda dengan nama sheet. Click on sync columns.
Melaksanakan Pekerjaan
Setelah Anda selesai menambahkan, menghubungkan, dan mengonfigurasi komponen, Anda siap untuk menjalankan tugas Talend Anda. Klik tombol Run untuk memulai eksekusi.
Anda akan melihat output dalam mode dasar dengan pemisah ",".
Anda juga dapat melihat bahwa keluaran Anda disimpan sebagai excel di jalur keluaran yang Anda sebutkan.
Metadata pada dasarnya berarti data tentang data. Ini menceritakan tentang apa, kapan, mengapa, siapa, di mana, yang mana, dan bagaimana data. Di Talend, metadata memiliki seluruh informasi tentang data yang ada di studio Talend. Opsi metadata ada di dalam panel Repositori dari Talend Open Studio.
Berbagai sumber seperti Koneksi DB, jenis file yang berbeda, LDAP, Azure, Salesforce, FTP Layanan Web, Hadoop Cluster dan banyak lagi opsi ada di bawah Metadata Talend.
Kegunaan utama metadata di Talend Open Studio adalah Anda dapat menggunakan sumber data ini di beberapa pekerjaan hanya dengan drag and drop sederhana dari Metadata di panel repositori.
Variabel konteks adalah variabel yang dapat memiliki nilai berbeda di lingkungan yang berbeda. Anda dapat membuat grup konteks yang dapat menampung banyak variabel konteks. Anda tidak perlu menambahkan setiap variabel konteks satu per satu ke pekerjaan, Anda cukup menambahkan grup konteks ke pekerjaan.
Variabel ini digunakan untuk menyiapkan produksi kode. Artinya dengan menggunakan variabel konteks, Anda dapat memindahkan kode dalam lingkungan pengembangan, pengujian atau produksi, itu akan berjalan di semua lingkungan.
Dalam pekerjaan apa pun, Anda dapat pergi ke tab Konteks seperti yang ditunjukkan di bawah ini dan menambahkan variabel konteks.
Di bab ini, mari kita lihat cara mengelola pekerjaan dan fungsi terkait yang termasuk dalam Talend.
Mengaktifkan / Menonaktifkan Komponen
Mengaktifkan / Menonaktifkan Komponen sangat sederhana. Anda hanya perlu memilih komponen, klik kanan padanya, dan pilih nonaktifkan atau aktifkan opsi komponen itu.
Mengimpor / Mengekspor Barang dan Pekerjaan Bangunan
Untuk mengekspor item dari pekerjaan, klik kanan pada pekerjaan di Desain Pekerjaan dan klik Ekspor item.
Masukkan jalur tempat Anda ingin mengekspor item dan klik Selesai.
Untuk mengimpor item dari pekerjaan, klik kanan pada pekerjaan di Desain Pekerjaan dan klik Impor item.
Jelajahi direktori root dari mana Anda ingin mengimpor item.
Pilih semua kotak centang dan klik Selesai.
Dalam bab ini, mari kita pahami cara menangani pelaksanaan pekerjaan di Talend.
Untuk membangun pekerjaan, klik kanan pekerjaan dan pilih opsi Build Job.
Sebutkan jalur tempat Anda ingin mengarsipkan pekerjaan, pilih versi pekerjaan dan jenis build, lalu klik Selesai.
Cara Menjalankan Pekerjaan dalam Mode Normal
Untuk menjalankan pekerjaan di node normal, Anda perlu memilih "Basic Run" dan klik tombol Run untuk memulai eksekusi.
Cara Menjalankan Pekerjaan dalam Mode Debug
Untuk menjalankan pekerjaan dalam mode debug, tambahkan breakpoint ke komponen yang ingin Anda debug.
Kemudian, pilih dan klik kanan pada komponen tersebut, klik Add opsi Breakpoint. Perhatikan bahwa di sini kita telah menambahkan breakpoint ke komponen tFileInputExcel dan tLogRow. Lalu, buka Debug Run, dan klik tombol Java Debug.
Anda dapat mengamati dari tangkapan layar berikut bahwa pekerjaan sekarang akan dijalankan dalam mode debug dan sesuai dengan breakpoint yang telah kami sebutkan.
Pengaturan lanjutan
Dalam pengaturan Lanjutan, Anda dapat memilih dari Pengaturan Statistik, Waktu Eksekusi, Simpan Pekerjaan sebelum Eksekusi, Hapus sebelum Jalankan, dan JVM. Setiap opsi ini memiliki fungsi seperti yang dijelaskan di sini -
Statistics - Ini menampilkan tingkat kinerja pemrosesan;
Exec Time - Waktu yang dibutuhkan untuk melaksanakan pekerjaan.
Save Job before Execution - Secara otomatis menyimpan pekerjaan sebelum eksekusi dimulai.
Clear before Run - Menghapus semuanya dari konsol keluaran.
JVM Settings - Membantu kami mengonfigurasi argumen Java sendiri.
Slogan untuk Open Studio dengan Big data adalah "Sederhanakan ETL dan ELT dengan alat ETL sumber terbuka gratis terkemuka untuk data besar". Dalam bab ini, mari kita lihat penggunaan Talend sebagai alat untuk memproses data di lingkungan data besar.
pengantar
Talend Open Studio - Big Data adalah alat gratis dan sumber terbuka untuk memproses data Anda dengan sangat mudah di lingkungan data besar. Anda memiliki banyak komponen big data yang tersedia di Talend Open Studio, yang memungkinkan Anda membuat dan menjalankan pekerjaan Hadoop hanya dengan menarik dan melepas beberapa komponen Hadoop.
Selain itu, kita tidak perlu menulis kode MapReduce baris besar; Talend Open Studio Big data membantu Anda melakukan ini dengan komponen yang ada di dalamnya. Ini secara otomatis menghasilkan kode MapReduce untuk Anda, Anda hanya perlu menyeret dan melepas komponen dan mengkonfigurasi beberapa parameter.
Ini juga memberi Anda opsi untuk terhubung dengan beberapa distribusi Big Data seperti Cloudera, HortonWorks, MapR, Amazon EMR, dan bahkan Apache.
Komponen Bakat untuk Big Data
Daftar kategori dengan komponen untuk menjalankan pekerjaan di lingkungan Big Data yang termasuk dalam Big Data, ditampilkan di bawah -
Daftar konektor dan komponen Big Data di Talend Open Studio ditunjukkan di bawah ini -
tHDFSConnection - Digunakan untuk menghubungkan ke HDFS (Hadoop Distributed File System).
tHDFSInput - Membaca data dari jalur hdfs yang diberikan, memasukkannya ke dalam skema talend dan meneruskannya ke komponen berikutnya dalam pekerjaan.
tHDFSList - Mengambil semua file dan folder di jalur hdfs yang diberikan.
tHDFSPut - Menyalin file / folder dari sistem file lokal (ditentukan pengguna) ke hdfs di jalur yang diberikan.
tHDFSGet - Menyalin file / folder dari hdfs ke sistem file lokal (ditentukan pengguna) di jalur yang diberikan.
tHDFSDelete - Menghapus file dari HDFS
tHDFSExist - Memeriksa apakah file ada di HDFS atau tidak.
tHDFSOutput - Menulis aliran data di HDFS.
tCassandraConnection - Membuka koneksi ke server Cassandra.
tCassandraRow - Menjalankan kueri CQL (Cassandra query language) pada database yang ditentukan.
tHBaseConnection - Membuka koneksi ke HBase Database.
tHBaseInput - membaca data dari database HBase.
tHiveConnection - Membuka koneksi ke database Hive.
tHiveCreateTable - Membuat tabel di dalam database sarang.
tHiveInput - Membaca data dari database sarang.
tHiveLoad - Menulis data ke tabel sarang atau direktori tertentu.
tHiveRow - menjalankan kueri HiveQL pada database yang ditentukan.
tPigLoad - Memuat data masukan ke aliran keluaran.
tPigMap - Digunakan untuk mengubah dan merutekan data dalam proses pig.
tPigJoin - Melakukan operasi gabungan dari 2 file berdasarkan tombol penghubung.
tPigCoGroup - Mengelompokkan dan menggabungkan data yang berasal dari berbagai input.
tPigSort - Mengurutkan data yang diberikan berdasarkan satu atau lebih kunci pengurutan yang ditentukan.
tPigStoreResult - Menyimpan hasil dari operasi babi di ruang penyimpanan yang ditentukan.
tPigFilterRow - Memfilter kolom yang ditentukan untuk memisahkan data berdasarkan kondisi yang diberikan.
tPigDistinct - Menghapus tupel duplikat dari relasi.
tSqoopImport - Mentransfer data dari database relasional seperti MySQL, Oracle DB ke HDFS.
tSqoopExport - Mentransfer data dari HDFS ke database relasional seperti MySQL, Oracle DB
Dalam bab ini, mari kita pelajari secara detail tentang cara kerja Talend dengan sistem file terdistribusi Hadoop.
Pengaturan dan Prasyarat
Sebelum kita melanjutkan ke Talend dengan HDFS, kita harus belajar tentang pengaturan dan prasyarat yang harus dipenuhi untuk tujuan ini.
Di sini kita menjalankan quickstart Cloudera 5.10 VM pada kotak virtual. Jaringan Khusus Host harus digunakan di VM ini.
IP Jaringan Hanya Host: 192.168.56.101
Anda juga harus memiliki host yang sama yang berjalan di pengelola cloudera.
Sekarang di sistem windows Anda, buka c: \ Windows \ System32 \ Drivers \ etc \ hosts dan edit file ini menggunakan Notepad seperti yang ditunjukkan di bawah ini.
Demikian pula, pada VM cloudera quickstart Anda, edit file / etc / hosts seperti yang ditunjukkan di bawah ini.
sudo gedit /etc/hosts
Menyiapkan Koneksi Hadoop
Di panel repositori, buka Metadata. Klik kanan Hadoop Cluster dan buat cluster baru. Beri nama, tujuan dan deskripsi untuk koneksi cluster Hadoop ini.
Klik Next.
Pilih distribusi sebagai cloudera dan pilih versi yang Anda gunakan. Pilih opsi ambil konfigurasi dan klik Berikutnya.
Masukkan kredensial manajer (URI dengan port, nama pengguna, kata sandi) seperti yang ditunjukkan di bawah ini dan klik Hubungkan. Jika detailnya benar, Anda akan mendapatkan Cloudera QuickStart pada cluster yang ditemukan.
Klik Ambil. Ini akan mengambil semua koneksi dan konfigurasi untuk HDFS, YARN, HBASE, HIVE.
Pilih Semua dan klik Selesai.
Perhatikan bahwa semua parameter koneksi akan terisi otomatis. Sebutkan cloudera di nama pengguna dan klik Selesai.
Dengan ini, Anda berhasil terhubung ke Cluster Hadoop.
Menghubungkan ke HDFS
Dalam pekerjaan ini, kami akan membuat daftar semua direktori dan file yang ada di HDFS.
Pertama, kami akan membuat pekerjaan dan kemudian menambahkan komponen HDFS ke dalamnya. Klik kanan pada Desain Pekerjaan dan buat pekerjaan baru - hadoopjob.
Sekarang tambahkan 2 komponen dari palet - tHDFSConnection dan tHDFSList. Klik kanan tHDFSConnection dan hubungkan 2 komponen ini menggunakan pemicu 'OnSubJobOk'.
Sekarang, konfigurasikan kedua komponen talend hdfs.
Di tHDFSConnection, pilih Repository as the Property Type dan pilih cluster cloudera Hadoop yang Anda buat sebelumnya. Ini akan otomatis mengisi semua detail yang diperlukan untuk komponen ini.
Di tHDFSList, pilih "Gunakan koneksi yang ada" dan di daftar komponen pilih tHDFSConnection yang Anda konfigurasikan.
Berikan opsi home path HDFS in HDFS Directory dan klik tombol browse di sebelah kanan.
Jika Anda telah membuat koneksi dengan benar dengan konfigurasi yang disebutkan di atas, Anda akan melihat jendela seperti yang ditunjukkan di bawah ini. Ini akan mencantumkan semua direktori dan file yang ada di rumah HDFS.
Anda dapat memverifikasi ini dengan memeriksa HDFS Anda di cloudera.
Membaca file dari HDFS
Di bagian ini, mari kita pahami cara membaca file dari HDFS di Talend. Anda dapat membuat pekerjaan baru untuk tujuan ini, namun di sini kami menggunakan yang sudah ada.
Drag and Drop 3 komponen - tHDFSConnection, tHDFSInput dan tLogRow dari palet ke jendela desainer.
Klik kanan tHDFSConnection dan hubungkan komponen tHDFSInput menggunakan pemicu 'OnSubJobOk'.
Klik kanan tHDFSInput dan seret tautan utama ke tLogRow.
Perhatikan bahwa tHDFSConnection akan memiliki konfigurasi yang sama seperti sebelumnya. Di tHDFSInput, pilih "Gunakan koneksi yang ada" dan dari daftar komponen, pilih tHDFSConnection.
Di File Name, berikan path HDFS dari file yang ingin Anda baca. Di sini kita membaca file teks sederhana, jadi Jenis File kita adalah File Teks. Demikian pula, tergantung pada input Anda, isi pemisah baris, pemisah bidang, dan detail header seperti yang disebutkan di bawah ini. Terakhir, klik tombol Edit skema.
Karena file kami hanya memiliki teks biasa, kami hanya menambahkan satu kolom tipe String. Sekarang, klik Ok.
Note - Jika masukan Anda memiliki beberapa kolom dengan tipe berbeda, Anda perlu menyebutkan skema yang sesuai di sini.
Di komponen tLogRow, klik Sinkronkan kolom dalam skema edit.
Pilih mode di mana Anda ingin hasil Anda dicetak.
Terakhir, klik Jalankan untuk menjalankan pekerjaan.
Setelah Anda berhasil membaca file HDFS, Anda dapat melihat output berikut.
Menulis File ke HDFS
Mari kita lihat cara menulis file dari HDFS di Talend. Drag and Drop 3 komponen - tHDFSConnection, tFileInputDelimited dan tHDFSOutput dari palet ke jendela desainer.
Klik kanan pada tHDFSConnection dan hubungkan komponen tFileInputDelimited menggunakan pemicu 'OnSubJobOk'.
Klik kanan pada tFileInputDelimited dan seret tautan utama ke tHDFSOutput.
Perhatikan bahwa tHDFSConnection akan memiliki konfigurasi yang sama seperti sebelumnya.
Sekarang, di tFileInputDelimited, berikan jalur file input dalam opsi Nama file / Aliran. Di sini kami menggunakan file csv sebagai input, oleh karena itu pemisah bidangnya adalah ",".
Pilih header, footer, batas sesuai dengan file masukan Anda. Perhatikan bahwa di sini tajuk kami adalah 1 karena baris 1 berisi nama kolom dan batasnya adalah 3 karena kami hanya menulis 3 baris pertama ke HDFS.
Sekarang, klik edit skema.
Sekarang, sesuai file masukan kami, tentukan skema. File input kami memiliki 3 kolom seperti yang disebutkan di bawah ini.
Di komponen tHDFSOutput, klik sinkronkan kolom. Kemudian, pilih tHDFSConnection di Gunakan koneksi yang sudah ada. Juga, di Nama file, berikan jalur HDFS di mana Anda ingin menulis file Anda.
Perhatikan bahwa jenis file adalah file teks, Tindakan akan "buat", Pemisah baris akan menjadi "\ n" dan pemisah bidang adalah ";"
Terakhir, klik Jalankan untuk menjalankan pekerjaan Anda. Setelah pekerjaan berhasil dijalankan, periksa apakah file Anda ada di HDFS.
Jalankan perintah hdfs berikut dengan jalur keluaran yang Anda sebutkan di pekerjaan Anda.
hdfs dfs -cat /input/talendwrite
Anda akan melihat output berikut jika Anda berhasil menulis di HDFS.
Di bab sebelumnya, kita telah melihat bagaimana Talend bekerja dengan Big Data. Di chapter ini, mari kita pahami cara menggunakan map Reduce dengan Talend.
Membuat Pekerjaan MapReduce Talend
Mari kita pelajari cara menjalankan pekerjaan MapReduce di Talend. Di sini kita akan menjalankan contoh jumlah kata MapReduce.
Untuk tujuan ini, klik kanan Desain Pekerjaan dan buat pekerjaan baru - MapreduceJob. Sebutkan detail pekerjaan dan klik Selesai.
Menambahkan Komponen ke Pekerjaan MapReduce
Untuk menambahkan komponen ke tugas MapReduce, seret dan lepas lima komponen Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput dari palet ke jendela desainer. Klik kanan pada tHDFSInput dan buat tautan utama ke tNormalize.
Klik kanan tNormalize dan buat tautan utama ke tAggregateRow. Kemudian, klik kanan pada tAggregateRow dan buat tautan utama ke tMap. Sekarang, klik kanan pada tMap dan buat tautan utama ke tHDFSOutput.
Mengonfigurasi Komponen dan Transformasi
Di tHDFSInput, pilih cloudera distribusi dan versinya. Perhatikan bahwa URI Namenode harus "hdfs: //quickstart.cloudera: 8020" dan nama pengguna harus "cloudera". Pada opsi nama file, berikan jalur file input Anda ke pekerjaan MapReduce. Pastikan file input ini ada di HDFS.
Sekarang, pilih jenis file, pemisah baris, pemisah file dan header sesuai dengan file input Anda.
Klik edit skema dan tambahkan kolom "baris" sebagai jenis string.
Di tNomalize, kolom yang akan dinormalisasi menjadi baris dan Pemisah item akan menjadi spasi -> ““. Sekarang, klik edit skema. tNormalize akan memiliki kolom baris dan tAggregateRow akan memiliki 2 kolom word dan wordcount seperti yang ditunjukkan di bawah ini.
Di tAggregateRow, letakkan kata sebagai kolom keluaran di Grup berdasarkan opsi. Dalam pengoperasiannya, letakkan jumlah kata sebagai kolom keluaran, berfungsi sebagai hitungan dan posisi kolom masukan sebagai garis.
Sekarang klik dua kali komponen tMap untuk masuk ke editor peta dan memetakan input dengan output yang diperlukan. Dalam contoh ini, kata dipetakan dengan kata dan wordcount dipetakan dengan wordcount. Di kolom ekspresi, klik […] untuk masuk ke pembuat ekspresi.
Sekarang, pilih StringHandling dari daftar kategori dan fungsi UPCASE. Edit ekspresi menjadi "StringHandling.UPCASE (row3.word)" dan klik Ok. Pertahankan row3.wordcount di kolom ekspresi sesuai dengan wordcount seperti yang ditunjukkan di bawah ini.
Di tHDFSOutput, sambungkan ke cluster Hadoop yang kita buat dari tipe properti sebagai repositori. Perhatikan bahwa bidang akan terisi otomatis. Di Nama file, berikan jalur keluaran tempat Anda ingin menyimpan keluaran. Pertahankan Action, pemisah baris dan pemisah bidang seperti yang diperlihatkan di bawah ini.
Menjalankan Pekerjaan MapReduce
Setelah konfigurasi Anda berhasil diselesaikan, klik Jalankan dan jalankan pekerjaan MapReduce Anda.
Buka jalur HDFS Anda dan periksa hasilnya. Perhatikan bahwa semua kata akan menggunakan huruf besar dengan jumlah kata.
Dalam bab ini, mari kita pelajari cara bekerja dengan pekerjaan Babi di Talend.
Membuat Pekerjaan Talend Pig
Di bagian ini, mari kita pelajari cara menjalankan pekerjaan Babi di Talend. Di sini, kami akan mengolah data NYSE untuk mengetahui rata-rata volume saham IBM.
Untuk ini, klik kanan Desain Pekerjaan dan buat pekerjaan baru - pigjob. Sebutkan detail pekerjaan dan klik Selesai.
Menambahkan Komponen ke Pig Job
Untuk menambahkan komponen ke tugas Pig, seret dan lepas empat komponen Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, dari jendela palet ke desainer.
Kemudian, klik kanan tPigLoad dan buat garis Pig Combine ke tPigFilterRow. Selanjutnya, klik kanan tPigFilterRow dan buat garis Pig Combine ke tPigAggregate. Klik kanan tPigAggregate dan buat garis gabungan Pig ke tPigStoreResult.
Mengonfigurasi Komponen dan Transformasi
Di tPigLoad, sebutkan distribusi sebagai cloudera dan versi cloudera. Perhatikan bahwa URI Namenode harus "hdfs: //quickstart.cloudera: 8020" dan Resource Manager harus "quickstart.cloudera: 8020". Selain itu, nama pengguna harus "cloudera".
Di URI file Input, berikan jalur file input NYSE Anda ke pig job. Perhatikan bahwa file input ini harus ada di HDFS.
Klik edit skema, tambahkan kolom dan tipenya seperti yang ditunjukkan di bawah ini.
Di tPigFilterRow, pilih opsi "Gunakan filter lanjutan" dan letakkan "stock_symbol = 'IBM'" di opsi Filter.
Di tAggregateRow, klik edit schema dan tambahkan kolom avg_stock_volume pada keluaran seperti yang ditunjukkan di bawah ini.
Sekarang, taruh kolom stock_exchange di Group by option. Tambahkan kolom avg_stock_volume di bidang Operasi dengan Fungsi count dan stock_exchange sebagai Kolom Input.
Di tPigStoreResult, berikan jalur keluaran di URI Folder Hasil tempat Anda ingin menyimpan hasil pekerjaan Pig. Pilih fungsi penyimpanan sebagai PigStorage dan pemisah bidang (tidak wajib) sebagai "\ t".
Melakukan Pekerjaan Babi
Sekarang klik Run untuk menjalankan pekerjaan Pig Anda. (Abaikan peringatan)
Setelah pekerjaan selesai, buka dan periksa output Anda di jalur HDFS yang Anda sebutkan untuk menyimpan hasil pekerjaan babi. Volume saham rata-rata IBM adalah 500.
Dalam bab ini, mari kita pahami cara bekerja dengan Hive job di Talend.
Membuat Pekerjaan Talend Hive
Sebagai contoh, kami akan memuat data NYSE ke tabel sarang dan menjalankan kueri sarang dasar. Klik kanan pada Desain Pekerjaan dan buat pekerjaan baru - pekerjaan sarang. Sebutkan detail pekerjaan dan klik Selesai.
Menambahkan Komponen ke Hive Job
Untuk memasukkan komponen ke pekerjaan Hive, seret dan lepas lima komponen talend - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput dan tLogRow dari palet ke jendela desainer. Kemudian, klik kanan tHiveConnection dan buat pemicu OnSubjobOk ke tHiveCreateTable. Sekarang, klik kanan tHiveCreateTable dan buat pemicu OnSubjobOk ke tHiveLoad. Klik kanan tHiveLoad dan buat pemicu iterasi pada tHiveInput. Terakhir, klik kanan tHiveInput dan buat jalur utama ke tLogRow.
Mengonfigurasi Komponen dan Transformasi
Di tHiveConnection, pilih distribusi sebagai cloudera dan versinya yang Anda gunakan. Perhatikan bahwa mode koneksi akan berdiri sendiri dan Hive Service akan menjadi Hive 2. Periksa juga apakah parameter berikut disetel sesuai -
- Host: “quickstart.cloudera”
- Porta: "10000"
- Basis data: "default"
- Nama pengguna: "sarang"
Perhatikan bahwa kata sandi akan terisi otomatis, Anda tidak perlu mengeditnya. Juga properti Hadoop lainnya akan disetel sebelumnya dan disetel secara default.
Di tHiveCreateTable, pilih Gunakan koneksi yang ada dan letakkan tHiveConnection di daftar Komponen. Beri Nama Tabel yang ingin Anda buat di database default. Pertahankan parameter lainnya seperti yang ditunjukkan di bawah ini.
Di tHiveLoad, pilih “Gunakan koneksi yang ada” dan letakkan tHiveConnection di daftar komponen. Pilih BEBAN dalam tindakan Muat. Di File Path, berikan jalur HDFS dari file input NYSE Anda. Sebutkan tabel dalam Nama Tabel, di mana Anda ingin memuat input. Pertahankan parameter lainnya seperti yang ditunjukkan di bawah ini.
Di tHiveInput, pilih Gunakan koneksi yang ada dan letakkan tHiveConnection di daftar Komponen. Klik edit skema, tambahkan kolom dan tipenya seperti yang ditunjukkan pada snapshot skema di bawah ini. Sekarang beri nama tabel yang Anda buat di tHiveCreateTable.
Letakkan kueri Anda dalam opsi kueri yang ingin Anda jalankan di tabel Hive. Di sini kami mencetak semua kolom dari 10 baris pertama di tabel sarang uji.
Di tLogRow, klik sinkronkan kolom dan pilih mode Tabel untuk menampilkan keluaran.
Mengeksekusi Pekerjaan Sarang
Klik Jalankan untuk memulai eksekusi. Jika semua koneksi dan parameter diatur dengan benar, Anda akan melihat output dari kueri Anda seperti yang ditunjukkan di bawah ini.