Talend - Hızlı Kılavuz

Talend, Veri entegrasyonu, Veri kalitesi, Veri yönetimi, Veri Hazırlama ve Büyük Veri için çözümler sunan bir yazılım entegrasyon platformudur. Talend hakkında bilgi sahibi olan ETL profesyonellerine olan talep yüksektir. Ayrıca, Büyük Veri ekosistemine kolayca entegre olmak için tüm eklentilere sahip tek ETL aracıdır.

Gartner'a göre Talend, Veri Entegrasyon araçları için Liderlerin sihirli kadranına düşüyor.

Talend, aşağıda listelendiği gibi çeşitli ticari ürünler sunmaktadır -

  • Talend Veri Kalitesi
  • Talend Veri Entegrasyonu
  • Talend Veri Hazırlama
  • Talend Bulutu
  • Talend Büyük Veri
  • Talend MDM (Ana Veri Yönetimi) Platformu
  • Talend Veri Hizmetleri Platformu
  • Talend Meta Veri Yöneticisi
  • Talend Data Fabric

Talend ayrıca Veri Entegrasyonu ve Büyük Veri için yaygın olarak kullanılan açık kaynaklı ücretsiz bir araç olan Open Studio'yu da sunmaktadır.

Aşağıdakiler, Talend Open Studio'yu indirmek ve üzerinde çalışmak için sistem gereksinimleridir -

Önerilen İşletim sistemi

  • Microsoft Windows 10
  • Ubuntu 16.04 LTS
  • Apple macOS 10.13 / Yüksek Sierra

Bellek gereksinimi

  • Bellek - Minimum 4 GB, Önerilen 8 GB
  • Depolama Alanı - 30 GB

Ayrıca, çalışır durumda bir Hadoop kümesine (tercihen Cloudera.

Note - Java 8, önceden ayarlanmış ortam değişkenleri ile mevcut olmalıdır.

Büyük Veri ve Veri Entegrasyonu için Talend Open Studio'yu indirmek için lütfen aşağıda verilen adımları izleyin -

Step 1 - Sayfaya gidin: https://www.talend.com/products/big-data/big-data-open-studio/ve indirme düğmesini tıklayın. TOS_BD_xxxxxxx.zip dosyasının indirilmeye başladığını görebilirsiniz.

Step 2 - İndirme tamamlandıktan sonra, zip dosyasının içeriğini çıkarın, içindeki tüm Talend dosyalarını içeren bir klasör oluşturacaktır.

Step 3- Talend klasörünü açın ve yürütülebilir dosyaya çift tıklayın: TOS_BD-win-x86_64.exe. Kullanıcı Lisans Sözleşmesini kabul edin.

Step 4 - Yeni bir proje oluşturun ve Bitir'i tıklayın.

Step 5 - Windows Güvenlik Uyarısı almanız durumunda Erişime İzin Ver'i tıklayın.

Step 6 - Şimdi Talend Open Studio karşılama sayfası açılacaktır.

Step 7 - Gerekli üçüncü taraf kitaplıklarını yüklemek için Bitir'i tıklayın.

Step 8 - Şartları kabul edin ve Bitir'e tıklayın.

Step 9 - Evet'i tıklayın.

Artık Talend Open Studio'nuz gerekli kitaplıklarla hazır.

Talend Open Studio, Veri Entegrasyonu ve Büyük Veri için ücretsiz bir açık kaynaklı ETL aracıdır. Eclipse tabanlı bir geliştirici aracı ve iş tasarımcısıdır. ETL veya ETL İşleri oluşturmak ve çalıştırmak için bileşenleri Sürükleyip Bırakmanız ve bağlamanız yeterlidir. Araç, iş için Java kodunu otomatik olarak oluşturacaktır ve tek bir kod satırı yazmanıza gerek yoktur.

RDBMS, Excel, SaaS Büyük Veri ekosistemi gibi Veri Kaynaklarının yanı sıra SAP, CRM, Dropbox ve daha pek çok uygulama ve teknolojiye bağlanmak için birden fazla seçenek vardır.

Talend Open Studio'nun sunduğu bazı önemli avantajlar aşağıdaki gibidir -

  • 900 bileşen, yerleşik konektörler, işleri otomatik olarak Java koduna dönüştürme ve çok daha fazlasıyla veri entegrasyonu ve senkronizasyonu için gereken tüm özellikleri sağlar.

  • Araç tamamen ücretsizdir, dolayısıyla büyük maliyet tasarrufları vardır.

  • Son 12 yılda, çok sayıda dev kuruluş, bu araca çok yüksek güven faktörü gösteren Veri entegrasyonu için TOS'u benimsedi.

  • Veri Entegrasyonu için Talend topluluğu çok aktif.

  • Talend, bu araçlara özellikler eklemeye devam ediyor ve belgeler iyi yapılandırılmış ve takip edilmesi çok kolay.

Çoğu kuruluş, verileri birden çok yerden alır ve ayrı olarak depolar. Şimdi organizasyonun karar vermesi gerekiyorsa, farklı kaynaklardan veri alması, birleşik bir görünüme sokması ve ardından bir sonuç elde etmek için analiz etmesi gerekir. Bu sürece Veri Entegrasyonu denir.

Faydaları

Veri Entegrasyonu, aşağıda açıklandığı gibi birçok avantaj sunar -

  • Organizasyon verilerine erişmeye çalışan organizasyondaki farklı ekipler arasındaki işbirliğini geliştirir.

  • Veriler etkili bir şekilde entegre edildiğinden zamandan tasarruf sağlar ve veri analizini kolaylaştırır.

  • Otomatik veri entegrasyon süreci verileri senkronize eder ve gerçek zamanlı ve periyodik raporlamayı kolaylaştırır, aksi takdirde manuel olarak yapılırsa zaman alıcıdır.

  • Çeşitli kaynaklardan entegre edilen veriler zamanla olgunlaşır ve gelişir, bu da sonunda daha iyi veri kalitesine yardımcı olur.

Projelerle Çalışma

Bu bölümde Talend projelerinde nasıl çalışılacağını anlayalım -

Proje Oluşturmak

TOS Big Data çalıştırılabilir dosyasına çift tıklayın, aşağıda gösterilen pencere açılacaktır.

Yeni proje oluştur seçeneğini seçin, projenin adını belirtin ve Oluştur'a tıklayın.

Oluşturduğunuz projeyi seçin ve Bitir'e tıklayın.

Bir Projeyi İçe Aktarmak

TOS Big Data çalıştırılabilir dosyasına çift tıklayın, aşağıdaki pencereyi görebilirsiniz. Bir demo projesini içe aktar seçeneğini seçin ve Seç'e tıklayın.

Aşağıda gösterilen seçenekler arasından seçim yapabilirsiniz. Burada Veri Entegrasyon Demolarını seçiyoruz. Şimdi Bitir'e tıklayın.

Şimdi, Proje adını ve açıklamasını verin. Bitir öğesine tıklayın.

İçe aktarılan projenizi mevcut projeler listesi altında görebilirsiniz.

Şimdi, mevcut bir Talend projesini nasıl içe aktaracağımızı anlayalım.

Mevcut bir projeyi içe aktar seçeneğini seçin ve Seç'e tıklayın.

Proje Adı verin ve "Kök dizini seç" seçeneğini seçin.

Mevcut Talend projesi ana dizininize göz atın ve Bitir'e tıklayın.

Mevcut Talend projeniz içe aktarılacak.

Proje Açmak

Mevcut projeden bir proje seçin ve Bitir'e tıklayın. Bu, Talend projesini açacak.

Bir Projeyi Silme

Bir projeyi silmek için Bağlantıları Yönet'e tıklayın.

Mevcut Projeleri Sil'i tıklayın.

Silmek istediğiniz projeyi seçin ve Tamam'a tıklayın.

Tekrar Tamam'ı tıklayın.

Bir Projeyi Dışa Aktarmak

Projeyi dışa aktar seçeneğini tıklayın.

Dışa aktarmak istediğiniz projeyi seçin ve dışa aktarılması gereken yere bir yol verin. Finish'e tıklayın.

İş Modeli, bir veri entegrasyon projesinin grafik gösterimidir. İşletmenin iş akışının teknik olmayan bir temsilidir.

Neden bir İş Modeline ihtiyacınız var?

Ne yaptığınızı üst yönetime göstermek için bir iş modeli oluşturulur ve aynı zamanda ekibinizin neyi başarmaya çalıştığınızı anlamasını sağlar. Bir İş Modeli tasarlamak, kuruluşların veri entegrasyon projelerinin başında benimsediği en iyi uygulamalardan biri olarak kabul edilir. Ayrıca, maliyetlerin azaltılmasına yardımcı olarak, projenizdeki darboğazları bulur ve çözer. Model, gerekirse projenin uygulanması sırasında ve sonrasında değiştirilebilir.

Talend Open Studio'da İş Modeli Oluşturma

Talend açık stüdyo, bir iş modeli oluşturmak ve tasarlamak için birden çok şekil ve bağlayıcı sağlar. Bir iş modelindeki her modülün kendisine eklenmiş bir dokümantasyonu olabilir.

Talend Open Studio, bir iş modeli oluşturmak için aşağıdaki şekilleri ve bağlayıcı seçeneklerini sunar -

  • Decision - Bu şekil, modele if koşulu koymak için kullanılır.

  • Action - Bu şekil herhangi bir dönüşümü, çeviriyi veya biçimlendirmeyi göstermek için kullanılır.

  • Terminal - Bu şekil, çıkış terminal tipini gösterir.

  • Data - Bu şekil veri türünü göstermek için kullanılır.

  • Document - Bu şekil, işlenen verilerin girişi / çıkışı için kullanılabilecek bir belge nesnesi eklemek için kullanılır.

  • Input - Bu şekil, kullanıcının verileri manuel olarak iletebileceği giriş nesnesi eklemek için kullanılır.

  • List - Bu şekil, çıkarılan verileri içerir ve listede yalnızca belirli türdeki verileri tutacak şekilde tanımlanabilir.

  • Database - Bu şekil, giriş / çıkış verilerini tutmak için kullanılır.

  • Actor - Bu şekil, karar verme ve teknik süreçlerde yer alan bireyleri sembolize eder.

  • Ellipse - Elips şekli ekler.

    Gear - Bu şekil Talend işleriyle değiştirilmesi gereken manuel programları gösterir.

Talend'deki tüm işlemler bağlayıcılar ve bileşenler tarafından gerçekleştirilir. Talend, çeşitli işlemleri gerçekleştirmek için 800'den fazla bağlayıcı ve bileşen sunar. Bu bileşenler palette bulunur ve bileşenlerin ait olduğu 21 ana kategori vardır. Bağlayıcıları seçebilir ve tasarımcı bölmesine sürükleyip bırakabilirsiniz, bu, Talend kodunu kaydettiğinizde derlenecek olan java kodunu otomatik olarak oluşturacaktır.

Bileşenleri içeren ana kategoriler aşağıda gösterilmiştir -

Talend Open Studio'da veri entegrasyonu için yaygın olarak kullanılan bağlayıcıların ve bileşenlerin listesi aşağıdadır -

  • tMysqlConnection - Bileşende tanımlanan MySQL veritabanına bağlanır.

  • tMysqlInput - Bir veritabanını okumak ve sorguya bağlı olarak alanları (tablolar, görünümler vb.) Çıkarmak için veritabanı sorgusu çalıştırır.

  • tMysqlOutput - Bir MySQL veritabanındaki verileri yazmak, güncellemek ve değiştirmek için kullanılır.

  • tFileInputDelimited - Sınırlandırılmış bir dosyayı satır satır okur ve bunları ayrı alanlara böler ve bir sonraki bileşene aktarır.

  • tFileInputExcel - Bir excel dosyasını satır satır okur ve bunları ayrı alanlara böler ve bir sonraki bileşene aktarır.

  • tFileList - Belirli bir dosya maskesi modelinden tüm dosyaları ve dizinleri alır.

  • tFileArchive - Bir dizi dosyayı veya klasörü zip, gzip veya tar.gz arşiv dosyasına sıkıştırır.

  • tRowGenerator - Örnek verilerinizi oluşturmak için işlevler yazabileceğiniz veya ifadeler seçebileceğiniz bir düzenleyici sağlar.

  • tMsgBox - Belirtilen mesaj ve bir OK düğmesi ile bir iletişim kutusu döndürür.

  • tLogRow- İşlenen verileri izler. Çalıştırma konsolunda veri / çıktıyı görüntüler.

  • tPreJob - Gerçek işiniz başlamadan önce çalışacak alt işleri tanımlar.

  • tMap- Talend stüdyosunda eklenti görevi görür. Bir veya daha fazla kaynaktan veri alır, dönüştürür ve sonra dönüştürülen verileri bir veya daha fazla hedefe gönderir.

  • tJoin - Ana akış ile arama akışı arasında iç ve dış birleştirmeler yaparak 2 tabloyu birleştirir.

  • tJava - Talend programında kişiselleştirilmiş java kodunu kullanmanızı sağlar.

  • tRunJob - Bir Talend işini birbiri ardına çalıştırarak karmaşık iş sistemlerini yönetir.

Bu, iş modelinin teknik uygulaması / grafik temsilidir. Bu tasarımda, bir veri entegrasyon sürecini yürütmek için bir veya daha fazla bileşen birbirine bağlanır. Bu nedenle, bileşenleri tasarım bölmesine sürükleyip bıraktığınızda ve ardından bağlayıcılara bağladığınızda, bir iş tasarımı her şeyi koda dönüştürür ve veri akışını oluşturan eksiksiz bir çalıştırılabilir program oluşturur.

Bir İş Oluşturmak

Depo penceresinde, İş Tasarımına sağ tıklayın ve İş Oluştur seçeneğine tıklayın.

İşin adını, amacını ve açıklamasını girin ve Bitir'e tıklayın.

İşinizin oluşturulduğunu İş Tasarımı altında görebilirsiniz.

Şimdi bileşenleri eklemek, bağlamak ve yapılandırmak için bu işi kullanalım. Burada girdi olarak bir excel dosyası alıp aynı veriye sahip çıktı olarak bir excel dosyası oluşturacağız.

Bir İşe Bileşen Ekleme

Palette seçilecek birkaç bileşen var. Seçmek için bileşenin adını girebileceğiniz bir arama seçeneği de vardır.

Burada girdi olarak bir excel dosyası aldığımız için, tFileInputExcel bileşenini paletten Designer penceresine sürükleyip bırakacağız.

Şimdi, tasarımcı penceresinde herhangi bir yere tıklarsanız, bir arama kutusu görünecektir. TLogRow'u bulun ve tasarımcı penceresine getirmek için seçin.

Son olarak, paletten tFileOutputExcel bileşenini seçin ve tasarımcı penceresine sürükleyin.

Şimdi bileşenlerin eklenmesi tamamlandı.

Bileşenlerin Bağlanması

Bileşenleri ekledikten sonra bunları bağlamalısınız. İlk tFileInputExcel bileşenine sağ tıklayın ve aşağıda gösterildiği gibi tLogRow'a bir Ana çizgi çizin.

Benzer şekilde, tLogRow'a sağ tıklayın ve tFileOutputExcel'de bir Ana çizgi çizin. Artık bileşenleriniz bağlandı.

Bileşenleri yapılandırma

İşe bileşenleri ekledikten ve bağladıktan sonra, bunları yapılandırmanız gerekir. Bunun için, yapılandırmak üzere ilk bileşen tFileInputExcel'e çift tıklayın. Giriş dosyanızın yolunu aşağıda gösterildiği gibi Dosya adı / akış olarak verin.

Excel'deki 1. satırınız sütun adlarına sahipse , Başlık seçeneğine 1 yazın.

Şemayı düzenle'yi tıklayın ve girdi excel dosyanıza göre sütunları ve türünü ekleyin. Şemayı ekledikten sonra Tamam'ı tıklayın.

Evet'i tıklayın.

TLogRow bileşeninde, senkronizasyon sütunlarına tıklayın ve girdinizden satırları oluşturmak istediğiniz modu seçin. Burada alan ayırıcı olarak "," ile Temel modu seçtik.

Son olarak, tFileOutputExcel bileşeninde, saklamak istediğiniz dosya adının yolunu verin

çıktı excel dosyanız sayfa adı ile. Click on sync columns.

İşi Yürütme

Bileşenlerinizi eklemeyi, bağlamayı ve yapılandırmayı tamamladığınızda, Talend işinizi yürütmeye hazırsınız. Yürütmeyi başlatmak için Çalıştır düğmesine tıklayın.

Çıkışı "," ayırıcı ile temel modda göreceksiniz.

Çıktınızın bahsettiğiniz çıktı yolunda excel olarak kaydedildiğini de görebilirsiniz.

Meta veriler, temelde verilerle ilgili veriler anlamına gelir. Verilerin ne, ne zaman, neden, kim, nerede, hangileri ve nasıl olduğunu anlatır. Talend'de meta veriler, Talend stüdyosunda bulunan verilerle ilgili tüm bilgilere sahiptir. Metadata seçeneği Talend Open Studio'nun Depo bölmesinde bulunur.

Talend Meta Verileri altında DB Bağlantıları, farklı türdeki dosyalar, LDAP, Azure, Salesforce, Web Hizmetleri FTP, Hadoop Kümesi ve daha birçok seçenek gibi çeşitli kaynaklar mevcuttur.

Talend Open Studio'daki meta verilerin ana kullanımı, bu veri kaynaklarını birkaç işte yalnızca Depodaki Meta Veriler panelinden basit bir sürükle ve bırak yöntemiyle kullanabilmenizdir.

Bağlam değişkenleri, farklı ortamlarda farklı değerlere sahip olabilen değişkenlerdir. Birden çok bağlam değişkenini tutabilen bir bağlam grubu oluşturabilirsiniz. Her bağlam değişkenini bir işe tek tek eklemenize gerek yoktur, yalnızca bağlam grubunu işe ekleyebilirsiniz.

Bu değişkenler, kod üretimini hazır hale getirmek için kullanılır. Bunun anlamı, bağlam değişkenlerini kullanarak, kodu geliştirme, test veya üretim ortamlarında taşıyabilirsiniz, tüm ortamlarda çalışacaktır.

Herhangi bir işte aşağıda gösterildiği gibi Bağlamlar sekmesine gidebilir ve bağlam değişkenleri ekleyebilirsiniz.

Bu bölümde, işleri yönetmeye ve Talend'e dahil olan ilgili işlevleri inceleyelim.

Bir Bileşeni Etkinleştirme / Devre Dışı Bırakma

Bir Bileşeni Etkinleştirmek / Devre Dışı Bırakmak çok basittir. Sadece bileşeni seçmeniz, üzerine sağ tıklamanız ve bu bileşeni devre dışı bırak veya etkinleştir seçeneğini seçmeniz yeterlidir.

Öğeleri İçe / Dışa Aktarma ve İşleri Oluşturma

İşten öğeyi dışa aktarmak için, İş Tasarımlarında işe sağ tıklayın ve Öğeleri Dışa Aktar'a tıklayın.

Öğeyi dışa aktarmak istediğiniz yolu girin ve Bitir'i tıklayın.

İşten bir öğeyi içe aktarmak için, İş Tasarımlarında işe sağ tıklayın ve Öğeleri İçe Aktar'a tıklayın.

Öğeleri içe aktarmak istediğiniz kök dizine göz atın.

Tüm onay kutularını seçin ve Bitir'i tıklayın.

Bu bölümde, Talend'de bir işin icrasını ele alalım.

Bir iş oluşturmak için işe sağ tıklayın ve İş Oluştur seçeneğini seçin.

İşi arşivlemek istediğiniz yoldan bahsedin, iş sürümünü ve derleme türünü seçin, ardından Bitir'i tıklayın.

İşi Normal Modda Çalıştırma

Bir işi normal bir düğümde çalıştırmak için, "Temel Çalıştırma" yı seçmeniz ve yürütmenin başlaması için Çalıştır düğmesine tıklamanız gerekir.

Hata Ayıklama Modunda İş Nasıl Çalıştırılır

İşi bir hata ayıklama modunda çalıştırmak için, hata ayıklamak istediğiniz bileşenlere kesme noktası ekleyin.

Ardından, bileşeni seçin ve sağ tıklayın, Kesme Noktası Ekle seçeneğini tıklayın. Burada tFileInputExcel ve tLogRow bileşenlerine kesme noktaları eklediğimizi gözlemleyin. Ardından Debug Run'a gidin ve Java Debug butonuna tıklayın.

Aşağıdaki ekran görüntüsünden işin artık hata ayıklama modunda ve bahsettiğimiz kesme noktalarına göre yürütüleceğini gözlemleyebilirsiniz.

Gelişmiş Ayarlar

Gelişmiş ayarda, İstatistikler, Yürütme Süresi, Yürütmeden Önce İşi Kaydet, Çalıştırmadan Önce Temizle ve JVM ayarları arasından seçim yapabilirsiniz. Bu seçeneğin her biri, burada açıklanan işlevselliğe sahiptir -

  • Statistics - İşlemin performans oranını gösterir;

  • Exec Time - İşi yürütmek için geçen süre.

  • Save Job before Execution - Yürütme başlamadan önce işi otomatik olarak kaydeder.

  • Clear before Run - Her şeyi çıktı konsolundan kaldırır.

  • JVM Settings - Kendi Java argümanlarını yapılandırmamıza yardımcı olur.

Open Studio with Big data için etiket satırı "Büyük veri için önde gelen ücretsiz açık kaynaklı ETL aracı ile ETL ve ELT'yi basitleştirin" şeklindedir. Bu bölümde, Talend'in büyük veri ortamında veri işlemek için bir araç olarak kullanımına bakalım.

Giriş

Talend Open Studio - Büyük Veri, verilerinizi büyük veri ortamında çok kolay bir şekilde işlemek için ücretsiz ve açık kaynaklı bir araçtır. Talend Open Studio'da, yalnızca birkaç Hadoop bileşenini basitçe sürükle ve bırak ile Hadoop işleri oluşturmanıza ve çalıştırmanıza olanak tanıyan çok sayıda büyük veri bileşenine sahipsiniz.

Ayrıca, büyük satırlarda MapReduce kodları yazmamıza gerek yok; Talend Open Studio Büyük veri, içinde bulunan bileşenlerle bunu yapmanıza yardımcı olur. Sizin için otomatik olarak MapReduce kodu oluşturur, sadece bileşenleri sürükleyip bırakmanız ve birkaç parametreyi yapılandırmanız yeterlidir.

Ayrıca size Cloudera, HortonWorks, MapR, Amazon EMR ve hatta Apache gibi çeşitli Büyük Veri dağıtımlarına bağlanma seçeneği sunar.

Büyük Veri için Talend Bileşenleri

Büyük Veri altında yer alan Büyük Veri ortamında bir işi yürütmek için bileşenlere sahip kategorilerin listesi aşağıda gösterilmiştir -

Talend Open Studio'daki Büyük Veri bağlayıcılarının ve bileşenlerinin listesi aşağıda gösterilmiştir -

  • tHDFSConnection - HDFS'ye (Hadoop Dağıtılmış Dosya Sistemi) bağlanmak için kullanılır.

  • tHDFSInput - Verilen hdfs yolundaki veriyi okur, onu talend şemasına koyar ve ardından işteki bir sonraki bileşene aktarır.

  • tHDFSList - Verilen hdfs yolundaki tüm dosya ve klasörleri alır.

  • tHDFSPut - Dosya / klasörü yerel dosya sisteminden (kullanıcı tanımlı) verilen yolda hdfs'ye kopyalar.

  • tHDFSGet - Dosya / klasörü hdfs'den verilen yolda yerel dosya sistemine (kullanıcı tanımlı) kopyalar.

  • tHDFSDelete - Dosyayı HDFS'den siler

  • tHDFSExist - HDFS'de bir dosyanın bulunup bulunmadığını kontrol eder.

  • tHDFSOutput - HDFS'de veri akışlarını yazar.

  • tCassandraConnection - Cassandra sunucusuna bağlantıyı açar.

  • tCassandraRow - Belirtilen veritabanında CQL (Cassandra sorgu dili) sorgularını çalıştırır.

  • tHBaseConnection - HBase Veritabanına bağlantıyı açar.

  • tHBaseInput - HBase veritabanındaki verileri okur.

  • tHiveConnection - Hive veri tabanına bağlantıyı açar.

  • tHiveCreateTable - Bir kovan veritabanında bir tablo oluşturur.

  • tHiveInput - Kovanı veri tabanından okur.

  • tHiveLoad - Verileri kovan tablosuna veya belirtilen bir dizine yazar.

  • tHiveRow - belirtilen veritabanında HiveQL sorgularını çalıştırır.

  • tPigLoad - Giriş verilerini çıkış akışına yükler.

  • tPigMap - Verileri bir pig işleminde dönüştürmek ve yönlendirmek için kullanılır.

  • tPigJoin - Birleştirme anahtarlarına göre 2 dosyanın birleştirme işlemini gerçekleştirir.

  • tPigCoGroup - Birden çok girdiden gelen verileri gruplandırır ve toplar.

  • tPigSort - Verilen verileri bir veya daha fazla tanımlı sıralama anahtarına göre sıralar.

  • tPigStoreResult - Pig işleminin sonucunu tanımlı bir depolama alanında depolar.

  • tPigFilterRow - Verileri verilen koşula göre bölmek için belirtilen sütunları filtreler.

  • tPigDistinct - Yinelenen demetleri ilişkiden kaldırır.

  • tSqoopImport - MySQL, Oracle DB gibi ilişkisel veritabanından HDFS'ye veri aktarır.

  • tSqoopExport - Verileri HDFS'den MySQL, Oracle DB gibi ilişkisel veritabanlarına aktarır

Bu bölümde Talend'in Hadoop dağıtılmış dosya sistemiyle nasıl çalıştığını detaylı olarak öğrenelim.

Ayarlar ve Ön Koşullar

HDFS ile Talend'e geçmeden önce, bu amaçla karşılanması gereken ayarlar ve ön koşullar hakkında bilgi edinmeliyiz.

Burada Cloudera hızlı başlangıç ​​5.10 VM'yi sanal kutu üzerinde çalıştırıyoruz. Bu VM'de bir Yalnızca Ana Bilgisayar Ağı kullanılmalıdır.

Yalnızca Ana Bilgisayar Ağ IP'si: 192.168.56.101

Ayrıca, cloudera yöneticisinde de çalışan aynı ana makineye sahip olmalısınız.

Şimdi Windows sisteminizde c: \ Windows \ System32 \ Drivers \ etc \ hosts konumuna gidin ve bu dosyayı aşağıda gösterildiği gibi Not Defteri'ni kullanarak düzenleyin.

Benzer şekilde, cloudera hızlı başlangıç ​​sanal makinenizde, / etc / hosts dosyanızı aşağıda gösterildiği gibi düzenleyin.

sudo gedit /etc/hosts

Hadoop Bağlantısını Ayarlama

Depo panelinde Meta Veriler'e gidin. Hadoop Kümesi'ne sağ tıklayın ve yeni bir küme oluşturun. Bu Hadoop küme bağlantısının adını, amacını ve açıklamasını verin.

Sonrakine tıkla.

Dağıtımı cloudera olarak seçin ve kullandığınız sürümü seçin. Yapılandırmayı geri getir seçeneğini seçin ve İleri'ye tıklayın.

Yönetici kimlik bilgilerini (bağlantı noktası, kullanıcı adı, şifre ile URI) aşağıda gösterildiği gibi girin ve Bağlan'a tıklayın. Ayrıntılar doğruysa, keşfedilen kümelerin altında Cloudera QuickStart'ı alacaksınız.

Getir'i tıklayın. Bu, HDFS, YARN, HBASE, HIVE için tüm bağlantıları ve yapılandırmaları getirecektir.

Tümünü seçin ve Bitir'e tıklayın.

Tüm bağlantı parametrelerinin otomatik olarak doldurulacağını unutmayın. Kullanıcı adında cloudera'yı belirtin ve Bitir'i tıklayın.

Bununla, bir Hadoop Kümesine başarıyla bağlandınız.

HDFS'ye bağlanma

Bu işte, HDFS'de bulunan tüm dizinleri ve dosyaları listeleyeceğiz.

Öncelikle bir job oluşturacağız ve sonra ona HDFS bileşenleri ekleyeceğiz. İş Tasarımına sağ tıklayın ve yeni bir iş oluşturun - hadoopjob.

Şimdi paletten 2 bileşen ekleyin - tHDFSConnection ve tHDFSList. THDFSConnection'a sağ tıklayın ve bu 2 bileşeni 'OnSubJobOk' tetikleyicisini kullanarak bağlayın.

Şimdi, talend hdfs bileşenlerinin ikisini de yapılandırın.

THDFSConnection'da, Özellik Türü olarak Depo öğesini seçin ve daha önce oluşturduğunuz Hadoop cloudera kümesini seçin. Bu bileşen için gerekli tüm gerekli ayrıntıları otomatik olarak dolduracaktır.

THDFSList'te, "Mevcut bir bağlantıyı kullan" ı seçin ve bileşen listesinde yapılandırdığınız tHDFSConnection öğesini seçin.

HDFS Dizininde HDFS'nin ana yolunu verin ve sağdaki gözat düğmesine tıklayın.

Yukarıda belirtilen konfigürasyonlarla bağlantıyı düzgün bir şekilde kurduysanız, aşağıda gösterildiği gibi bir pencere göreceksiniz. HDFS ana sayfasında bulunan tüm dizinleri ve dosyaları listeler.

Bunu ClDdera'da HDFS'nizi kontrol ederek doğrulayabilirsiniz.

HDFS'den dosya okunuyor

Bu bölümde, Talend'de HDFS'den bir dosyanın nasıl okunacağını anlayalım. Bu amaçla yeni bir iş oluşturabilirsiniz, ancak burada mevcut olanı kullanıyoruz.

Paletten tasarımcı penceresine tHDFSConnection, tHDFSInput ve tLogRow gibi 3 bileşeni Sürükle ve Bırak.

THDFSConnection'a sağ tıklayın ve 'OnSubJobOk' tetikleyicisini kullanarak tHDFSInput bileşenini bağlayın.

THDFSInput'a sağ tıklayın ve bir ana bağlantıyı tLogRow'a sürükleyin.

THDFSConnection'ın daha önce olduğu gibi benzer yapılandırmaya sahip olacağını unutmayın. THDFSInput'ta, "Mevcut bir bağlantıyı kullan" ı seçin ve bileşen listesinden tHDFSConnection öğesini seçin.

Dosya Adında, okumak istediğiniz dosyanın HDFS yolunu belirtin. Burada basit bir metin dosyası okuyoruz, bu nedenle Dosya Türünüz Metin Dosyasıdır. Benzer şekilde, girişinize bağlı olarak satır ayırıcı, alan ayırıcı ve başlık ayrıntılarını aşağıda belirtildiği gibi doldurun. Son olarak, Şemayı düzenle düğmesini tıklayın.

Dosyamız yalnızca düz metin içerdiğinden, String türünde yalnızca bir sütun ekliyoruz. Şimdi Tamam'ı tıklayın.

Note - Girişiniz farklı türlerde birden çok sütuna sahipse, burada buna göre şemadan bahsetmeniz gerekir.

TLogRow bileşeninde, düzenleme şemasında sütunları senkronize et'i tıklayın.

Çıktınızın yazdırılmasını istediğiniz modu seçin.

Son olarak, işi yürütmek için Çalıştır'ı tıklayın.

Bir HDFS dosyasını okumayı başardıktan sonra, aşağıdaki çıktıyı görebilirsiniz.

HDFS'ye Dosya Yazma

Talend'de HDFS'den nasıl dosya yazılacağını görelim. Paletten tasarımcı penceresine tHDFSConnection, tFileInputDelimited ve tHDFSOutput gibi 3 bileşeni Sürükle ve Bırak.

THDFSConnection'a sağ tıklayın ve 'OnSubJobOk' tetikleyicisini kullanarak tFileInputDelimited bileşenini bağlayın.

TFileInputDelimited'a sağ tıklayın ve bir ana bağlantıyı tHDFSOutput'a sürükleyin.

THDFSConnection'ın daha önce olduğu gibi benzer yapılandırmaya sahip olacağını unutmayın.

Şimdi, tFileInputDelimited içinde, Dosya adı / Akış seçeneğinde girdi dosyasının yolunu verin. Burada girdi olarak bir csv dosyası kullanıyoruz, dolayısıyla alan ayırıcı "," dir.

Giriş dosyanıza göre üstbilgi, altbilgi ve sınırı seçin. Burada başlığımızın 1 olduğuna dikkat edin çünkü 1 satır sütun adlarını içeriyor ve sınır 3'tür çünkü HDFS'ye sadece ilk 3 satırı yazıyoruz.

Şimdi, şemayı düzenle'yi tıklayın.

Şimdi, girdi dosyamıza göre şemayı tanımlayın. Girdi dosyamız aşağıda belirtildiği gibi 3 sütun içerir.

THDFSOutput bileşeninde, senkronizasyon sütunlarını tıklayın. Ardından, Varolan bir bağlantıyı kullan bölümünde tHDFS Bağlantısı'nı seçin. Ayrıca, Dosya adı alanında dosyanızı yazmak istediğiniz yere bir HDFS yolu verin.

Dosya türünün metin dosyası, Eylem "oluştur", Satır ayırıcı "\ n" ve alan ayırıcı ";"

Son olarak, işinizi yürütmek için Çalıştır'ı tıklayın. İş başarıyla yürütüldüğünde, dosyanızın HDFS'de bulunup bulunmadığını kontrol edin.

İşinizde bahsettiğiniz çıktı yolu ile aşağıdaki hdfs komutunu çalıştırın.

hdfs dfs -cat /input/talendwrite

HDFS üzerine yazmada başarılı olursanız aşağıdaki çıktıyı göreceksiniz.

Önceki bölümde Talend'in Büyük Veri ile nasıl çalıştığını gördük. Bu bölümde, Map Reduce'un Talend ile nasıl kullanılacağını anlayalım.

Talend Haritası Oluşturma İşi Azalt

Talend'de bir MapReduce işini nasıl çalıştıracağımızı öğrenelim. Burada bir MapReduce kelime sayısı örneği çalıştıracağız.

Bu amaçla, İş Tasarımına sağ tıklayın ve yeni bir iş oluşturun - MapreduceJob. İşin ayrıntılarından bahsedin ve Bitir'i tıklayın.

MapReduce Job'a Bileşenler Ekleme

Bir MapReduce işine bileşenler eklemek için, Talend'in beş bileşenini - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput paletten tasarımcı penceresine sürükleyip bırakın. THDFSInput'a sağ tıklayın ve tNormalize için ana bağlantı oluşturun.

TNormalize'a sağ tıklayın ve tAggregateRow'a ana bağlantı oluşturun. Ardından, tAggregateRow'a sağ tıklayın ve tMap'e ana bağlantı oluşturun. Şimdi, tMap'e sağ tıklayın ve tHDFSOutput'a ana bağlantı oluşturun.

Bileşenleri ve Dönüşümleri Yapılandırma

THDFSInput'ta, dağıtım cloudera'yı ve sürümünü seçin. Namenode URI'nin "hdfs: //quickstart.cloudera: 8020" ve kullanıcı adının "cloudera" olması gerektiğini unutmayın. Dosya adı seçeneğinde, girdi dosyanızın MapReduce işine olan yolunu verin. Bu girdi dosyasının HDFS'de mevcut olduğundan emin olun.

Şimdi, girdi dosyanıza göre dosya türü, satır ayırıcı, dosya ayırıcı ve başlık seçin.

Şemayı düzenle'ye tıklayın ve "satır" alanını dize türü olarak ekleyin.

TNomalize'de, normalleştirilecek sütun satır olacak ve Öğe ayırıcı beyaz boşluk -> "" olacaktır. Şimdi, şemayı düzenle'yi tıklayın. tNormalize satır sütununa sahip olacak ve tAggregateRow aşağıda gösterildiği gibi 2 sütun word ve wordcount'a sahip olacaktır.

TAggregateRow'da, kelimeyi seçeneğe göre Gruplandır'a çıktı sütunu olarak koyun. İşlemlerde wordcount'u çıktı sütunu, sayı işlevi ve Girdi sütunu konumu satır olarak koyun.

Şimdi harita düzenleyicisine girmek ve girişi gerekli çıktıyla eşleştirmek için tMap bileşenine çift tıklayın. Bu örnekte, kelime word ile, wordcount ise wordcount ile eşleştirilmiştir. İfade sütununda, ifade oluşturucuya girmek için […] üzerine tıklayın.

Şimdi kategori listesinden ve UPCASE işlevinden StringHandling'i seçin. İfadeyi “StringHandling.UPCASE (row3.word)” olarak düzenleyin ve Tamam'ı tıklayın. Row3.wordcount'u aşağıda gösterildiği gibi wordcount'a karşılık gelen ifade sütununda tutun.

THDFSOutput'ta, depo olarak özellik türünden oluşturduğumuz Hadoop kümesine bağlanın. Alanların otomatik olarak doldurulacağını gözlemleyin. Dosya adı alanında, çıktıyı depolamak istediğiniz çıktı yolunu belirtin. Eylemi, satır ayırıcıyı ve alan ayırıcıyı aşağıda gösterildiği gibi tutun.

MapReduce Job'u Yürütme

Yapılandırmanız başarıyla tamamlandığında Çalıştır'a tıklayın ve MapReduce işinizi yürütün.

HDFS yolunuza gidin ve çıktıyı kontrol edin. Tüm kelimelerin kelime sayılarıyla birlikte büyük harfle yazılacağını unutmayın.

Bu bölümde, Talend'de bir Pig işi ile nasıl çalışılacağını öğrenelim.

Talend Domuz İşi Oluşturmak

Bu bölümde, Talend'de nasıl Pig işi yapacağımızı öğrenelim. Burada, IBM'in ortalama stok hacmini bulmak için NYSE verilerini işleyeceğiz.

Bunun için İş Tasarımına sağ tıklayın ve yeni bir iş oluşturun - domuz işi. İşin ayrıntılarından bahsedin ve Bitir'i tıklayın.

Pig Job'a Bileşen Ekleme

Pig işine bileşenler eklemek için, dört Talend bileşenini paletten tasarımcı penceresine sürükleyip bırakın: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult.

Ardından, tPigLoad'a sağ tıklayın ve tPigFilterRow'a Pig Combine hattı oluşturun. Ardından, tPigFilterRow'a sağ tıklayın ve tPigAggregate'e Pig Combine hattı oluşturun. TPigAggregate'e sağ tıklayın ve tPigStoreResult'a Pig birleştirme hattı oluşturun.

Bileşenleri ve Dönüşümleri Yapılandırma

TPigLoad'da, dağılımı cloudera ve cloudera versiyonundan bahsedin. Namenode URI'nin "hdfs: //quickstart.cloudera: 8020" ve Kaynak Yöneticisinin "quickstart.cloudera: 8020" olması gerektiğini unutmayın. Ayrıca kullanıcı adı "cloudera" olmalıdır.

Girdi dosyası URI'sinde, NYSE girdi dosyanızın yolunu pig işine verin. Bu girdi dosyasının HDFS'de bulunması gerektiğini unutmayın.

Şemayı düzenle'yi tıklayın, sütunları ve türünü aşağıda gösterildiği gibi ekleyin.

TPigFilterRow'da, "Gelişmiş filtre kullan" seçeneğini seçin ve Filtre seçeneğine "stock_symbol = = 'IBM" yazın.

TAggregateRow'da, şemayı düzenle'yi tıklayın ve aşağıda gösterildiği gibi çıktıya avg_stock_volume sütununu ekleyin.

Şimdi, stock_exchange sütununu Grup seçeneğine göre girin. Giriş Sütunu olarak count İşlevi ve stock_exchange ile İşlemler alanına avg_stock_volume sütununu ekleyin.

TPigStoreResult'da, Pig işinin sonucunu depolamak istediğiniz Sonuç Klasörü URI'sindeki çıktı yolunu verin. Depolama işlevini PigStorage olarak ve alan ayırıcıyı (zorunlu değildir) "\ t" olarak seçin.

Domuz İşini Yürütmek

Şimdi Pig işinizi yürütmek için Çalıştır'a tıklayın. (Uyarıları dikkate almayın)

İş bittiğinde, gidin ve domuz işi sonucunu depolamak için bahsettiğiniz HDFS yolunda çıktınızı kontrol edin. IBM'in ortalama stok hacmi 500'dür.

Bu bölümde, Talend'de Hive işi ile nasıl çalışılacağını anlayalım.

Talend Hive Job Oluşturma

Örnek olarak, NYSE verilerini bir kovan tablosuna yükleyeceğiz ve temel bir kovan sorgusu çalıştıracağız. İş Tasarımına sağ tıklayın ve yeni bir iş oluşturun - hivejob. İşin ayrıntılarından bahsedin ve Bitir'e tıklayın.

Hive Job'a Bileşen Ekleme

Bileşenleri bir Hive işine yerleştirmek için beş talend bileşenini - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput ve tLogRow'u paletten tasarımcı penceresine sürükleyip bırakın. Ardından, tHiveConnection'a sağ tıklayın ve tHiveCreateTable için OnSubjobOk tetikleyicisi oluşturun. Şimdi, tHiveCreateTable'a sağ tıklayın ve tHiveLoad için OnSubjobOk tetikleyicisi oluşturun. THiveLoad'a sağ tıklayın ve tHiveInput'ta yineleme tetikleyicisi oluşturun. Son olarak, tHiveInput'a sağ tıklayın ve tLogRow'a bir ana satır oluşturun.

Bileşenleri ve Dönüşümleri Yapılandırma

THiveConnection'da, cloudera ve kullandığınız sürümü olarak dağıtımı seçin. Bağlantı modunun bağımsız olacağını ve Hive Service'in Hive 2 olacağını unutmayın. Ayrıca aşağıdaki parametrelerin uygun şekilde ayarlanıp ayarlanmadığını kontrol edin -

  • Ana bilgisayar: "quickstart.cloudera"
  • Bağlantı noktası: "10000"
  • Veritabanı: "varsayılan"
  • Kullanıcı adı: "hive"

Parolanın otomatik olarak doldurulacağını unutmayın, onu düzenlemeniz gerekmez. Ayrıca diğer Hadoop özellikleri de önceden ayarlanacak ve varsayılan olarak ayarlanacaktır.

THiveCreateTable'da, Varolan bir bağlantıyı kullan'ı seçin ve Bileşen listesine tHiveConnection'ı koyun. Varsayılan veritabanında oluşturmak istediğiniz Tablo Adını verin. Diğer parametreleri aşağıda gösterildiği gibi tutun.

THiveLoad'da, "Mevcut bir bağlantıyı kullan" ı seçin ve tHiveConnection'ı bileşen listesine koyun. Yükle eyleminde YÜKLE'yi seçin. Dosya Yolunda, NYSE girdi dosyanızın HDFS yolunu verin. Girişi yüklemek istediğiniz Tablo Adı'nda tablodan bahsedin. Diğer parametreleri aşağıda gösterildiği gibi tutun.

THiveInput'ta, Varolan bir bağlantıyı kullan'ı seçin ve Bileşen listesine tHiveConnection'ı koyun. Şemayı düzenle'yi tıklayın, aşağıdaki şema anlık görüntüsünde gösterildiği gibi sütunları ve türünü ekleyin. Şimdi tHiveCreateTable'da oluşturduğunuz tablo adını verin.

Sorgunuzu Hive tablosunda çalıştırmak istediğiniz sorgu seçeneğine yerleştirin. Burada test kovanı tablosundaki ilk 10 satırın tüm sütunlarını yazdırıyoruz.

TLogRow'da, sütunları eşitle'ye tıklayın ve çıktıyı göstermek için Tablo modunu seçin.

Hive İşini Yürütme

Yürütmeyi başlatmak için Çalıştır'a tıklayın. Tüm bağlantı ve parametreler doğru ayarlanmışsa, sorgunuzun çıktısını aşağıda gösterildiği gibi göreceksiniz.