Talend - Kurzanleitung

Talend ist eine Software-Integrationsplattform, die Lösungen für Datenintegration, Datenqualität, Datenmanagement, Datenvorbereitung und Big Data bietet. Die Nachfrage nach ETL-Fachleuten mit Talend-Kenntnissen ist hoch. Außerdem ist es das einzige ETL-Tool mit allen Plugins, das sich problemlos in das Big Data-Ökosystem integrieren lässt.

Laut Gartner fällt Talend in den magischen Quadranten von Leaders für Datenintegrationstools.

Talend bietet verschiedene kommerzielle Produkte an, wie unten aufgeführt -

  • Talend Datenqualität
  • Talend Datenintegration
  • Talend Datenvorbereitung
  • Talend Cloud
  • Talend Big Data
  • Talend MDM-Plattform (Master Data Management)
  • Talend Data Services-Plattform
  • Talend Metadata Manager
  • Talend Data Fabric

Talend bietet auch Open Studio an, ein Open Source-freies Tool, das häufig für Datenintegration und Big Data verwendet wird.

Im Folgenden sind die Systemanforderungen zum Herunterladen und Arbeiten mit Talend Open Studio aufgeführt:

Empfohlenes Betriebssystem

  • Microsoft Windows 10
  • Ubuntu 16.04 LTS
  • Apple MacOS 10.13 / High Sierra

Speicherbedarf

  • Speicher - Mindestens 4 GB, empfohlen 8 GB
  • Speicherplatz - 30 GB

Außerdem benötigen Sie einen betriebsbereiten Hadoop-Cluster (vorzugsweise Cloudera).

Note - Java 8 muss mit bereits festgelegten Umgebungsvariablen verfügbar sein.

Führen Sie die folgenden Schritte aus, um Talend Open Studio für Big Data und Datenintegration herunterzuladen:

Step 1 - Gehen Sie zur Seite: https://www.talend.com/products/big-data/big-data-open-studio/und klicken Sie auf den Download-Button. Sie können sehen, dass die Datei TOS_BD_xxxxxxx.zip heruntergeladen wird.

Step 2 - Nachdem der Download abgeschlossen ist, extrahieren Sie den Inhalt der Zip-Datei. Es wird ein Ordner mit allen darin enthaltenen Talend-Dateien erstellt.

Step 3- Öffnen Sie den Talend-Ordner und doppelklicken Sie auf die ausführbare Datei: TOS_BD-win-x86_64.exe. Akzeptieren Sie die Benutzerlizenzvereinbarung.

Step 4 - Erstellen Sie ein neues Projekt und klicken Sie auf Fertig stellen.

Step 5 - Klicken Sie auf Zugriff zulassen, falls Sie eine Windows-Sicherheitswarnung erhalten.

Step 6 - Jetzt wird die Begrüßungsseite von Talend Open Studio geöffnet.

Step 7 - Klicken Sie auf Fertig stellen, um die erforderlichen Bibliotheken von Drittanbietern zu installieren.

Step 8 - Akzeptieren Sie die Bedingungen und klicken Sie auf Fertig stellen.

Step 9 - Klicken Sie auf Ja.

Jetzt ist Ihr Talend Open Studio mit den erforderlichen Bibliotheken ausgestattet.

Talend Open Studio ist ein kostenloses Open Source ETL-Tool für Datenintegration und Big Data. Es ist ein Eclipse-basiertes Entwicklertool und Jobdesigner. Sie müssen nur Komponenten ziehen und ablegen und verbinden, um ETL- oder ETL-Jobs zu erstellen und auszuführen. Das Tool erstellt den Java-Code für den Job automatisch und Sie müssen keine einzige Codezeile schreiben.

Es gibt mehrere Optionen für die Verbindung mit Datenquellen wie RDBMS, Excel, SaaS Big Data-Ökosystem sowie Apps und Technologien wie SAP, CRM, Dropbox und vielen mehr.

Einige wichtige Vorteile, die Talend Open Studio bietet, sind folgende:

  • Bietet alle Funktionen, die für die Datenintegration und -synchronisierung mit 900 Komponenten, integrierten Konnektoren, der automatischen Konvertierung von Jobs in Java-Code und vielem mehr erforderlich sind.

  • Das Tool ist völlig kostenlos, daher ergeben sich große Kosteneinsparungen.

  • In den letzten 12 Jahren haben mehrere große Unternehmen die Nutzungsbedingungen für die Datenintegration eingeführt, was einen sehr hohen Vertrauensfaktor in dieses Tool zeigt.

  • Die Talend-Community für Datenintegration ist sehr aktiv.

  • Talend fügt diesen Tools weiterhin Funktionen hinzu. Die Dokumentationen sind gut strukturiert und sehr einfach zu befolgen.

Die meisten Organisationen erhalten Daten von mehreren Orten und speichern sie separat. Wenn die Organisation nun Entscheidungen treffen muss, muss sie Daten aus verschiedenen Quellen entnehmen, sie in eine einheitliche Ansicht bringen und sie dann analysieren, um ein Ergebnis zu erhalten. Dieser Prozess wird als Datenintegration bezeichnet.

Leistungen

Die Datenintegration bietet viele Vorteile, wie unten beschrieben -

  • Verbessert die Zusammenarbeit zwischen verschiedenen Teams in der Organisation, die versuchen, auf Organisationsdaten zuzugreifen.

  • Spart Zeit und vereinfacht die Datenanalyse, da die Daten effektiv integriert werden.

  • Der automatisierte Datenintegrationsprozess synchronisiert die Daten und vereinfacht die Echtzeit- und regelmäßige Berichterstellung, was ansonsten zeitaufwändig ist, wenn er manuell durchgeführt wird.

  • Daten, die aus mehreren Quellen integriert sind, reifen und verbessern sich im Laufe der Zeit, was letztendlich zu einer besseren Datenqualität beiträgt.

Arbeiten mit Projekten

Lassen Sie uns in diesem Abschnitt verstehen, wie man an Talend-Projekten arbeitet -

Ein Projekt erstellen

Doppelklicken Sie auf die ausführbare Datei von TOS Big Data. Das unten gezeigte Fenster wird geöffnet.

Wählen Sie die Option Neues Projekt erstellen, geben Sie den Namen des Projekts an und klicken Sie auf Erstellen.

Wählen Sie das von Ihnen erstellte Projekt aus und klicken Sie auf Fertig stellen.

Ein Projekt importieren

Doppelklicken Sie auf die ausführbare Datei von TOS Big Data. Das folgende Fenster wird angezeigt. Wählen Sie die Option Demo-Projekt importieren und klicken Sie auf Auswählen.

Sie können aus den unten gezeigten Optionen auswählen. Hier wählen wir Data Integration Demos. Klicken Sie nun auf Fertig stellen.

Geben Sie nun den Projektnamen und die Beschreibung an. Klicken Sie auf Fertig stellen.

Sie können Ihr importiertes Projekt unter der Liste der vorhandenen Projekte anzeigen.

Lassen Sie uns nun verstehen, wie ein vorhandenes Talend-Projekt importiert wird.

Wählen Sie die Option Vorhandenes Projekt importieren und klicken Sie auf Auswählen.

Geben Sie den Projektnamen ein und wählen Sie die Option "Stammverzeichnis auswählen".

Durchsuchen Sie Ihr vorhandenes Talend-Projekt-Ausgangsverzeichnis und klicken Sie auf Fertig stellen.

Ihr vorhandenes Talend-Projekt wird importiert.

Ein Projekt öffnen

Wählen Sie ein Projekt aus einem vorhandenen Projekt aus und klicken Sie auf Fertig stellen. Dies wird das Talend-Projekt öffnen.

Projekt löschen

Klicken Sie zum Löschen eines Projekts auf Verbindungen verwalten.

Klicken Sie auf Vorhandene Projekte löschen.

Wählen Sie das Projekt aus, das Sie löschen möchten, und klicken Sie auf OK.

Klicken Sie erneut auf OK.

Projekt exportieren

Klicken Sie auf Projektoption exportieren.

Wählen Sie das Projekt aus, das Sie exportieren möchten, und geben Sie einen Pfad an, in den es exportiert werden soll. Klicken Sie auf Fertig stellen.

Das Geschäftsmodell ist eine grafische Darstellung eines Datenintegrationsprojekts. Es ist eine nicht technische Darstellung des Workflows des Unternehmens.

Warum brauchen Sie ein Geschäftsmodell?

Ein Geschäftsmodell soll dem höheren Management zeigen, was Sie tun, und es lässt Ihr Team verstehen, was Sie erreichen möchten. Das Entwerfen eines Geschäftsmodells wird als eine der Best Practices angesehen, die Unternehmen zu Beginn ihres Datenintegrationsprojekts anwenden. Außerdem hilft es bei der Kostensenkung und findet und behebt die Engpässe in Ihrem Projekt. Das Modell kann bei Bedarf während und nach der Implementierung des Projekts geändert werden.

Geschäftsmodell in Talend Open Studio erstellen

Talend Open Studio bietet verschiedene Formen und Anschlüsse zum Erstellen und Entwerfen eines Geschäftsmodells. An jedes Modul in einem Geschäftsmodell kann eine Dokumentation angehängt werden.

Talend Open Studio bietet die folgenden Formen und Verbindungsoptionen zum Erstellen eines Geschäftsmodells:

  • Decision - Diese Form wird zum Einfügen einer if-Bedingung in das Modell verwendet.

  • Action - Diese Form wird verwendet, um Transformationen, Übersetzungen oder Formatierungen anzuzeigen.

  • Terminal - Diese Form zeigt den Typ des Ausgangsanschlusses.

  • Data - Diese Form wird verwendet, um den Datentyp anzuzeigen.

  • Document - Diese Form wird zum Einfügen eines Dokumentobjekts verwendet, das zur Eingabe / Ausgabe der verarbeiteten Daten verwendet werden kann.

  • Input - Diese Form wird zum Einfügen eines Eingabeobjekts verwendet, mit dem der Benutzer die Daten manuell übergeben kann.

  • List - Diese Form enthält die extrahierten Daten und kann so definiert werden, dass nur bestimmte Arten von Daten in der Liste enthalten sind.

  • Database - Diese Form dient zum Speichern der Eingabe- / Ausgabedaten.

  • Actor - Diese Form symbolisiert die Personen, die an Entscheidungen und technischen Prozessen beteiligt sind

  • Ellipse - Fügt eine Ellipsenform ein.

    Gear - Diese Form zeigt die manuellen Programme, die durch Talend-Jobs ersetzt werden müssen.

Alle Operationen in Talend werden von Verbindern und Komponenten ausgeführt. Talend bietet mehr als 800 Steckverbinder und Komponenten für verschiedene Vorgänge. Diese Komponenten sind in der Palette vorhanden, und es gibt 21 Hauptkategorien, zu denen Komponenten gehören. Sie können die Konnektoren auswählen und einfach per Drag & Drop in das Designerfenster ziehen. Dadurch wird automatisch Java-Code erstellt, der beim Speichern des Talend-Codes kompiliert wird.

Hauptkategorien, die Komponenten enthalten, sind unten gezeigt -

Im Folgenden finden Sie eine Liste der häufig verwendeten Konnektoren und Komponenten für die Datenintegration in Talend Open Studio:

  • tMysqlConnection - Stellt eine Verbindung zur in der Komponente definierten MySQL-Datenbank her.

  • tMysqlInput - Führt eine Datenbankabfrage aus, um eine Datenbank zu lesen und Felder (Tabellen, Ansichten usw.) abhängig von der Abfrage zu extrahieren.

  • tMysqlOutput - Zum Schreiben, Aktualisieren und Ändern von Daten in einer MySQL-Datenbank.

  • tFileInputDelimited - Liest eine begrenzte Datei zeilenweise und teilt sie in separate Felder auf und übergibt sie an die nächste Komponente.

  • tFileInputExcel - Liest eine Excel-Datei zeilenweise und teilt sie in separate Felder auf und übergibt sie an die nächste Komponente.

  • tFileList - Ruft alle Dateien und Verzeichnisse aus einem bestimmten Dateimaskenmuster ab.

  • tFileArchive - Komprimiert eine Reihe von Dateien oder Ordnern in die Archivdatei zip, gzip oder tar.gz.

  • tRowGenerator - Bietet einen Editor, in den Sie Funktionen schreiben oder Ausdrücke auswählen können, um Ihre Beispieldaten zu generieren.

  • tMsgBox - Gibt ein Dialogfeld mit der angegebenen Nachricht und einer OK-Schaltfläche zurück.

  • tLogRow- Überwacht die Daten, die verarbeitet werden. Es zeigt Daten / Ausgaben in der Ausführungskonsole an.

  • tPreJob - Definiert die Unterjobs, die ausgeführt werden, bevor Ihr eigentlicher Job gestartet wird.

  • tMap- Dient als Plugin im Talend Studio. Es nimmt Daten aus einer oder mehreren Quellen, transformiert sie und sendet die transformierten Daten dann an ein oder mehrere Ziele.

  • tJoin - Verbindet 2 Tabellen, indem innere und äußere Verknüpfungen zwischen dem Hauptfluss und dem Suchfluss durchgeführt werden.

  • tJava - Ermöglicht die Verwendung von personalisiertem Java-Code im Talend-Programm.

  • tRunJob - Verwaltet komplexe Jobsysteme, indem ein Talend-Job nach dem anderen ausgeführt wird.

Dies ist die technische Implementierung / grafische Darstellung des Geschäftsmodells. Bei diesem Entwurf werden eine oder mehrere Komponenten miteinander verbunden, um einen Datenintegrationsprozess auszuführen. Wenn Sie also Komponenten in den Entwurfsbereich ziehen und dort ablegen und dann mit Konnektoren verbinden, konvertiert ein Auftragsentwurf alles in Code und erstellt ein vollständig ausführbares Programm, das den Datenfluss bildet.

Einen Job erstellen

Klicken Sie im Repository-Fenster mit der rechten Maustaste auf das Jobdesign und klicken Sie auf Job erstellen.

Geben Sie den Namen, den Zweck und die Beschreibung des Auftrags ein und klicken Sie auf Fertig stellen.

Sie können sehen, dass Ihr Job unter Job Design erstellt wurde.

Verwenden Sie diesen Job nun, um Komponenten hinzuzufügen, zu verbinden und zu konfigurieren. Hier nehmen wir eine Excel-Datei als Eingabe und erstellen eine Excel-Datei als Ausgabe mit denselben Daten.

Hinzufügen von Komponenten zu einem Job

In der Palette stehen mehrere Komponenten zur Auswahl. Es gibt auch eine Suchoption, bei der Sie den Namen der Komponente eingeben können, um sie auszuwählen.

Da wir hier eine Excel-Datei als Eingabe verwenden, ziehen wir die tFileInputExcel-Komponente per Drag & Drop aus der Palette in das Designer-Fenster.

Wenn Sie nun auf eine beliebige Stelle im Designerfenster klicken, wird ein Suchfeld angezeigt. Suchen Sie tLogRow und wählen Sie es aus, um es in das Designerfenster zu bringen.

Wählen Sie schließlich die Komponente tFileOutputExcel aus der Palette aus und ziehen Sie sie per Drag & Drop in das Designerfenster.

Nun ist das Hinzufügen der Komponenten abgeschlossen.

Komponenten anschließen

Nach dem Hinzufügen von Komponenten müssen Sie diese verbinden. Klicken Sie mit der rechten Maustaste auf die erste Komponente tFileInputExcel und zeichnen Sie eine Hauptlinie zu tLogRow, wie unten gezeigt.

Klicken Sie mit der rechten Maustaste auf tLogRow und zeichnen Sie eine Hauptlinie in tFileOutputExcel. Jetzt sind Ihre Komponenten verbunden.

Komponenten konfigurieren

Nachdem Sie die Komponenten im Job hinzugefügt und verbunden haben, müssen Sie sie konfigurieren. Doppelklicken Sie dazu auf die erste Komponente tFileInputExcel, um sie zu konfigurieren. Geben Sie den Pfad Ihrer Eingabedatei in Dateiname / Stream wie unten gezeigt an.

Wenn Ihre erste Zeile im Excel die Spaltennamen enthält, geben Sie 1 in die Option Header ein.

Klicken Sie auf Schema bearbeiten und fügen Sie die Spalten und ihren Typ entsprechend Ihrer Eingabe-Excel-Datei hinzu. Klicken Sie nach dem Hinzufügen des Schemas auf OK.

Klicken Sie auf Ja.

Klicken Sie in der tLogRow-Komponente auf Synchronisierungsspalten und wählen Sie den Modus aus, in dem Sie die Zeilen aus Ihrer Eingabe generieren möchten. Hier haben wir den Basismodus mit "," als Feldtrennzeichen ausgewählt.

Geben Sie schließlich in der Komponente tFileOutputExcel den Pfad des Dateinamens an, in dem Sie speichern möchten

Ihre Ausgabe-Excel-Datei mit dem Blattnamen. Click on sync columns.

Job ausführen

Sobald Sie mit dem Hinzufügen, Verbinden und Konfigurieren Ihrer Komponenten fertig sind, können Sie Ihren Talend-Job ausführen. Klicken Sie auf die Schaltfläche Ausführen, um die Ausführung zu starten.

Sie sehen die Ausgabe im Grundmodus mit dem Trennzeichen ",".

Sie können auch sehen, dass Ihre Ausgabe als Excel unter dem von Ihnen angegebenen Ausgabepfad gespeichert wird.

Metadaten sind grundsätzlich Daten über Daten. Es erzählt, was, wann, warum, wer, wo, was und wie von Daten. In Talend enthalten Metadaten alle Informationen zu den Daten, die in Talend Studio vorhanden sind. Die Metadatenoption befindet sich im Repository-Bereich von Talend Open Studio.

Unter Talend-Metadaten finden Sie verschiedene Quellen wie DB-Verbindungen, verschiedene Dateitypen, LDAP, Azure, Salesforce, Webdienste-FTP, Hadoop-Cluster und viele weitere Optionen.

Die Hauptverwendung von Metadaten in Talend Open Studio besteht darin, dass Sie diese Datenquellen in mehreren Jobs durch einfaches Ziehen und Ablegen aus dem Bereich Metadaten im Repository verwenden können.

Kontextvariablen sind die Variablen, die in verschiedenen Umgebungen unterschiedliche Werte haben können. Sie können eine Kontextgruppe erstellen, die mehrere Kontextvariablen enthalten kann. Sie müssen nicht jede Kontextvariable einzeln zu einem Job hinzufügen, sondern können einfach die Kontextgruppe zum Job hinzufügen.

Diese Variablen werden verwendet, um die Codeproduktion vorzubereiten. Durch die Verwendung von Kontextvariablen können Sie den Code in Entwicklungs-, Test- oder Produktionsumgebungen verschieben. Er wird in allen Umgebungen ausgeführt.

In jedem Job können Sie wie unten gezeigt zur Registerkarte Kontexte wechseln und Kontextvariablen hinzufügen.

Lassen Sie uns in diesem Kapitel die Verwaltung von Jobs und die entsprechenden in Talend enthaltenen Funktionen untersuchen.

Aktivieren / Deaktivieren einer Komponente

Das Aktivieren / Deaktivieren einer Komponente ist sehr einfach. Sie müssen nur die Komponente auswählen, mit der rechten Maustaste darauf klicken und die Option zum Deaktivieren oder Aktivieren dieser Komponente auswählen.

Importieren / Exportieren von Elementen und Erstellen von Jobs

Um ein Element aus dem Job zu exportieren, klicken Sie mit der rechten Maustaste auf den Job in den Jobdesigns und klicken Sie auf Elemente exportieren.

Geben Sie den Pfad ein, in den Sie das Element exportieren möchten, und klicken Sie auf Fertig stellen.

Um ein Element aus dem Job zu importieren, klicken Sie mit der rechten Maustaste auf den Job in den Jobdesigns und klicken Sie auf Elemente importieren.

Durchsuchen Sie das Stammverzeichnis, aus dem Sie die Elemente importieren möchten.

Aktivieren Sie alle Kontrollkästchen und klicken Sie auf Fertig stellen.

Lassen Sie uns in diesem Kapitel die Handhabung einer Jobausführung in Talend verstehen.

Um einen Job zu erstellen, klicken Sie mit der rechten Maustaste auf den Job und wählen Sie die Option Job erstellen.

Erwähnen Sie den Pfad, in dem Sie den Job archivieren möchten, wählen Sie die Jobversion und den Build-Typ aus und klicken Sie dann auf Fertig stellen.

So führen Sie einen Job im normalen Modus aus

Um einen Job in einem normalen Knoten auszuführen, müssen Sie "Grundausführung" auswählen und auf die Schaltfläche "Ausführen" klicken, damit die Ausführung beginnt.

So führen Sie einen Job im Debug-Modus aus

Um einen Job in einem Debug-Modus auszuführen, fügen Sie den Komponenten, die Sie debuggen möchten, einen Haltepunkt hinzu.

Wählen Sie dann die Komponente aus, klicken Sie mit der rechten Maustaste auf die Komponente und klicken Sie auf die Option Haltepunkt hinzufügen. Beachten Sie, dass wir hier den Komponenten tFileInputExcel und tLogRow Haltepunkte hinzugefügt haben. Gehen Sie dann zu Debug Run und klicken Sie auf die Schaltfläche Java Debug.

Aus dem folgenden Screenshot können Sie ersehen, dass der Job jetzt im Debug-Modus und gemäß den genannten Haltepunkten ausgeführt wird.

Erweiterte Einstellungen

In der Einstellung Erweitert können Sie zwischen den Einstellungen Statistik, Ausführungszeit, Job vor Ausführung speichern, Vor Ausführung löschen und JVM-Einstellungen wählen. Jede dieser Optionen verfügt über die hier erläuterte Funktionalität -

  • Statistics - Es zeigt die Leistungsrate der Verarbeitung an;

  • Exec Time - Die Zeit, die zum Ausführen des Jobs benötigt wird.

  • Save Job before Execution - Speichert den Job automatisch, bevor die Ausführung beginnt.

  • Clear before Run - Entfernt alles von der Ausgabekonsole.

  • JVM Settings - Hilft uns, eigene Java-Argumente zu konfigurieren.

Der Slogan für Open Studio mit Big Data lautet „Vereinfachen Sie ETL und ELT mit dem führenden kostenlosen Open-Source-ETL-Tool für Big Data“. Lassen Sie uns in diesem Kapitel die Verwendung von Talend als Werkzeug für die Verarbeitung von Daten in einer Big-Data-Umgebung untersuchen.

Einführung

Talend Open Studio - Big Data ist ein kostenloses Open-Source-Tool zur einfachen Verarbeitung Ihrer Daten in einer Big-Data-Umgebung. In Talend Open Studio stehen zahlreiche Big-Data-Komponenten zur Verfügung, mit denen Sie Hadoop-Jobs durch einfaches Ziehen und Ablegen einiger Hadoop-Komponenten erstellen und ausführen können.

Außerdem müssen wir keine großen Zeilen mit MapReduce-Codes schreiben. Talend Open Studio Big Data hilft Ihnen dabei, die darin enthaltenen Komponenten zu verwenden. Es generiert automatisch MapReduce-Code für Sie. Sie müssen nur die Komponenten ziehen und ablegen und einige Parameter konfigurieren.

Sie haben auch die Möglichkeit, eine Verbindung mit verschiedenen Big Data-Distributionen wie Cloudera, HortonWorks, MapR, Amazon EMR und sogar Apache herzustellen.

Talend-Komponenten für Big Data

Die Liste der Kategorien mit Komponenten zum Ausführen eines Jobs in einer Big Data-Umgebung unter Big Data ist unten dargestellt:

Die Liste der Big Data-Konnektoren und -Komponenten in Talend Open Studio wird unten angezeigt:

  • tHDFSConnection - Wird für die Verbindung mit HDFS (Hadoop Distributed File System) verwendet.

  • tHDFSInput - Liest die Daten aus dem angegebenen HDFS-Pfad, fügt sie in das Talend-Schema ein und übergibt sie dann an die nächste Komponente im Job.

  • tHDFSList - Ruft alle Dateien und Ordner im angegebenen HDFS-Pfad ab.

  • tHDFSPut - Kopiert die Datei / den Ordner vom lokalen Dateisystem (benutzerdefiniert) unter dem angegebenen Pfad nach hdfs.

  • tHDFSGet - Kopiert die Datei / den Ordner von hdfs in das lokale Dateisystem (benutzerdefiniert) unter dem angegebenen Pfad.

  • tHDFSDelete - Löscht die Datei aus HDFS

  • tHDFSExist - Überprüft, ob eine Datei in HDFS vorhanden ist oder nicht.

  • tHDFSOutput - Schreibt Datenflüsse auf HDFS.

  • tCassandraConnection - Öffnet die Verbindung zum Cassandra-Server.

  • tCassandraRow - Führt CQL-Abfragen (Cassandra Query Language) für die angegebene Datenbank aus.

  • tHBaseConnection - Öffnet die Verbindung zur HBase-Datenbank.

  • tHBaseInput - liest Daten aus der HBase-Datenbank.

  • tHiveConnection - Öffnet die Verbindung zur Hive-Datenbank.

  • tHiveCreateTable - Erstellt eine Tabelle in einer Hive-Datenbank.

  • tHiveInput - Liest Daten aus der Hive-Datenbank.

  • tHiveLoad - Schreibt Daten in eine Hive-Tabelle oder ein angegebenes Verzeichnis.

  • tHiveRow - führt HiveQL-Abfragen in der angegebenen Datenbank aus.

  • tPigLoad - Lädt Eingabedaten in den Ausgabestream.

  • tPigMap - Wird zum Transformieren und Weiterleiten der Daten in einem Molchprozess verwendet.

  • tPigJoin - Führt die Verknüpfungsoperation von 2 Dateien basierend auf Verknüpfungsschlüsseln aus.

  • tPigCoGroup - Gruppiert und aggregiert die Daten, die aus mehreren Eingaben stammen.

  • tPigSort - Sortiert die angegebenen Daten basierend auf einem oder mehreren definierten Sortierschlüsseln.

  • tPigStoreResult - Speichert das Ergebnis des Molchbetriebs an einem definierten Speicherplatz.

  • tPigFilterRow - Filtert die angegebenen Spalten, um die Daten basierend auf der angegebenen Bedingung aufzuteilen.

  • tPigDistinct - Entfernt die doppelten Tupel aus der Beziehung.

  • tSqoopImport - Überträgt Daten aus relationalen Datenbanken wie MySQL, Oracle DB nach HDFS.

  • tSqoopExport - Überträgt Daten von HDFS in eine relationale Datenbank wie MySQL, Oracle DB

In diesem Kapitel erfahren Sie ausführlich, wie Talend mit dem verteilten Hadoop-Dateisystem arbeitet.

Einstellungen und Voraussetzungen

Bevor wir mit HDFS in Talend fortfahren, sollten wir uns über Einstellungen und Voraussetzungen informieren, die für diesen Zweck erfüllt sein sollten.

Hier führen wir Cloudera Quickstart 5.10 VM auf einer virtuellen Box aus. In dieser VM muss ein Nur-Host-Netzwerk verwendet werden.

Nur-Host-Netzwerk-IP: 192.168.56.101

Auf dem Cloudera Manager muss derselbe Host ausgeführt werden.

Gehen Sie nun auf Ihrem Windows-System zu c: \ Windows \ System32 \ Drivers \ etc \ hosts und bearbeiten Sie diese Datei mit dem Editor wie unten gezeigt.

Bearbeiten Sie auf Ihrer Cloudera-Schnellstart-VM auf ähnliche Weise Ihre Datei / etc / hosts wie unten gezeigt.

sudo gedit /etc/hosts

Hadoop-Verbindung einrichten

Wechseln Sie im Repository-Bereich zu Metadaten. Klicken Sie mit der rechten Maustaste auf Hadoop-Cluster und erstellen Sie einen neuen Cluster. Geben Sie den Namen, den Zweck und die Beschreibung dieser Hadoop-Clusterverbindung an.

Weiter klicken.

Wählen Sie die Distribution als Cloudera und wählen Sie die Version, die Sie verwenden. Wählen Sie die Option Konfiguration abrufen und klicken Sie auf Weiter.

Geben Sie die Manager-Anmeldeinformationen (URI mit Port, Benutzername, Kennwort) wie unten gezeigt ein und klicken Sie auf Verbinden. Wenn die Details korrekt sind, erhalten Sie Cloudera QuickStart unter erkannten Clustern.

Klicken Sie auf Abrufen. Dadurch werden alle Verbindungen und Konfigurationen für HDFS, YARN, HBASE, HIVE abgerufen.

Wählen Sie Alle und klicken Sie auf Fertig stellen.

Beachten Sie, dass alle Verbindungsparameter automatisch ausgefüllt werden. Erwähnen Sie Cloudera im Benutzernamen und klicken Sie auf Fertig stellen.

Damit haben Sie erfolgreich eine Verbindung zu einem Hadoop-Cluster hergestellt.

Verbindung zu HDFS herstellen

In diesem Job werden alle Verzeichnisse und Dateien aufgelistet, die in HDFS vorhanden sind.

Zuerst erstellen wir einen Job und fügen ihm dann HDFS-Komponenten hinzu. Klicken Sie mit der rechten Maustaste auf das Jobdesign und erstellen Sie einen neuen Job - hadoopjob.

Fügen Sie nun 2 Komponenten aus der Palette hinzu - tHDFSConnection und tHDFSList. Klicken Sie mit der rechten Maustaste auf tHDFSConnection und verbinden Sie diese beiden Komponenten mit dem Trigger 'OnSubJobOk'.

Konfigurieren Sie nun beide talend hdfs-Komponenten.

Wählen Sie in tHDFSConnection als Eigenschaftstyp Repository und anschließend den zuvor erstellten Hadoop-Cloudera-Cluster aus. Alle für diese Komponente erforderlichen Details werden automatisch ausgefüllt.

Wählen Sie in tHDFSList "Vorhandene Verbindung verwenden" und in der Komponentenliste die von Ihnen konfigurierte tHDFSConnection aus.

Geben Sie den Startpfad von HDFS im HDFS-Verzeichnis an und klicken Sie rechts auf die Schaltfläche Durchsuchen.

Wenn Sie die Verbindung mit den oben genannten Konfigurationen ordnungsgemäß hergestellt haben, wird ein Fenster wie unten gezeigt angezeigt. Es werden alle Verzeichnisse und Dateien aufgelistet, die auf HDFS home vorhanden sind.

Sie können dies überprüfen, indem Sie Ihr HDFS auf Cloudera überprüfen.

Datei aus HDFS lesen

In diesem Abschnitt erfahren Sie, wie Sie eine Datei aus HDFS in Talend lesen. Sie können zu diesem Zweck einen neuen Job erstellen, hier verwenden wir jedoch den vorhandenen.

Ziehen Sie 3 Komponenten - tHDFSConnection, tHDFSInput und tLogRow - per Drag & Drop von der Palette in das Designerfenster.

Klicken Sie mit der rechten Maustaste auf tHDFSConnection und verbinden Sie die tHDFSInput-Komponente mit dem Trigger 'OnSubJobOk'.

Klicken Sie mit der rechten Maustaste auf tHDFSInput und ziehen Sie einen Hauptlink zu tLogRow.

Beachten Sie, dass tHDFSConnection die gleiche Konfiguration wie zuvor hat. Wählen Sie in tHDFSInput "Vorhandene Verbindung verwenden" und in der Komponentenliste "tHDFSConnection" aus.

Geben Sie im Dateinamen den HDFS-Pfad der Datei an, die Sie lesen möchten. Hier lesen wir eine einfache Textdatei, daher lautet unser Dateityp Textdatei. Füllen Sie abhängig von Ihrer Eingabe das Zeilentrennzeichen, das Feldtrennzeichen und die Kopfzeilendetails wie unten angegeben aus. Klicken Sie abschließend auf die Schaltfläche Schema bearbeiten.

Da unsere Datei nur einfachen Text enthält, fügen wir nur eine Spalte vom Typ String hinzu. Klicken Sie nun auf OK.

Note - Wenn Ihre Eingabe mehrere Spalten unterschiedlichen Typs enthält, müssen Sie das Schema hier entsprechend angeben.

Klicken Sie in der tLogRow-Komponente im Bearbeitungsschema auf Spalten synchronisieren.

Wählen Sie den Modus aus, in dem Ihre Ausgabe gedruckt werden soll.

Klicken Sie abschließend auf Ausführen, um den Job auszuführen.

Sobald Sie eine HDFS-Datei erfolgreich gelesen haben, wird die folgende Ausgabe angezeigt.

Datei in HDFS schreiben

Mal sehen, wie man eine Datei aus HDFS in Talend schreibt. Ziehen Sie 3 Komponenten per Drag & Drop - tHDFSConnection, tFileInputDelimited und tHDFSOutput aus der Palette in das Designerfenster.

Klicken Sie mit der rechten Maustaste auf tHDFSConnection und verbinden Sie die Komponente tFileInputDelimited mit dem Trigger 'OnSubJobOk'.

Klicken Sie mit der rechten Maustaste auf tFileInputDelimited und ziehen Sie einen Hauptlink zu tHDFSOutput.

Beachten Sie, dass tHDFSConnection die gleiche Konfiguration wie zuvor hat.

Geben Sie nun in tFileInputDelimited den Pfad der Eingabedatei in der Option Dateiname / Stream an. Hier verwenden wir eine CSV-Datei als Eingabe, daher ist das Feldtrennzeichen ",".

Wählen Sie die Kopf- und Fußzeile sowie das Limit entsprechend Ihrer Eingabedatei aus. Beachten Sie, dass hier unser Header 1 ist, weil die Zeile 1 die Spaltennamen enthält, und das Limit 3 ist, weil wir nur die ersten 3 Zeilen in HDFS schreiben.

Klicken Sie nun auf Schema bearbeiten.

Definieren Sie nun gemäß unserer Eingabedatei das Schema. Unsere Eingabedatei hat 3 Spalten, wie unten erwähnt.

Klicken Sie in der Komponente tHDFSOutput auf Spalten synchronisieren. Wählen Sie dann tHDFSConnection unter Vorhandene Verbindung verwenden aus. Geben Sie außerdem unter Dateiname einen HDFS-Pfad an, in den Sie Ihre Datei schreiben möchten.

Beachten Sie, dass der Dateityp eine Textdatei ist, die Aktion "Erstellen", das Zeilentrennzeichen "\ n" und das Feldtrennzeichen ";" ist.

Klicken Sie abschließend auf Ausführen, um Ihren Job auszuführen. Überprüfen Sie nach erfolgreicher Ausführung des Jobs, ob Ihre Datei in HDFS vorhanden ist.

Führen Sie den folgenden Befehl hdfs mit dem Ausgabepfad aus, den Sie in Ihrem Job erwähnt haben.

hdfs dfs -cat /input/talendwrite

Sie sehen die folgende Ausgabe, wenn Sie erfolgreich in HDFS schreiben.

Im vorherigen Kapitel haben wir gesehen, wie Talend mit Big Data funktioniert. Lassen Sie uns in diesem Kapitel verstehen, wie Sie Map Reduce with Talend verwenden.

Erstellen eines Talend MapReduce-Jobs

Lassen Sie uns lernen, wie Sie einen MapReduce-Job in Talend ausführen. Hier führen wir ein Beispiel für die MapReduce-Wortanzahl aus.

Klicken Sie dazu mit der rechten Maustaste auf Job Design und erstellen Sie einen neuen Job - MapreduceJob. Erwähnen Sie die Details des Jobs und klicken Sie auf Fertig stellen.

Hinzufügen von Komponenten zum MapReduce-Job

Um einem MapReduce-Job Komponenten hinzuzufügen, ziehen Sie fünf Komponenten von Talend per Drag & Drop - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput von der Palette in das Designerfenster. Klicken Sie mit der rechten Maustaste auf tHDFSInput und erstellen Sie den Hauptlink zu tNormalize.

Klicken Sie mit der rechten Maustaste auf tNormalize und erstellen Sie einen Hauptlink zu tAggregateRow. Klicken Sie dann mit der rechten Maustaste auf tAggregateRow und erstellen Sie einen Hauptlink zu tMap. Klicken Sie nun mit der rechten Maustaste auf tMap und erstellen Sie einen Hauptlink zu tHDFSOutput.

Komponenten und Transformationen konfigurieren

Wählen Sie in tHDFSInput die Verteilungscloudera und ihre Version aus. Beachten Sie, dass der Nameode-URI "hdfs: //quickstart.cloudera: 8020" und der Benutzername "cloudera" sein sollte. Geben Sie in der Option Dateiname den Pfad Ihrer Eingabedatei zum MapReduce-Job an. Stellen Sie sicher, dass diese Eingabedatei in HDFS vorhanden ist.

Wählen Sie nun den Dateityp, das Zeilentrennzeichen, das Dateitrennzeichen und den Header entsprechend Ihrer Eingabedatei aus.

Klicken Sie auf Schema bearbeiten und fügen Sie das Feld "Linie" als Zeichenfolgentyp hinzu.

In tNomalize ist die zu normalisierende Spalte eine Zeile und das Elementtrennzeichen ein Leerzeichen -> ““. Klicken Sie nun auf Schema bearbeiten. tNormalize hat eine Zeilenspalte und tAggregateRow hat 2 Spalten Wort und Wortzahl, wie unten gezeigt.

Fügen Sie in tAggregateRow das Wort als Ausgabespalte in die Option Gruppieren nach ein. Geben Sie in Operationen Wordcount als Ausgabespalte, Funktion als Anzahl und Eingabespaltenposition als Zeile ein.

Doppelklicken Sie nun auf die tMap-Komponente, um den Karteneditor aufzurufen und die Eingabe mit der erforderlichen Ausgabe abzubilden. In diesem Beispiel wird Wort mit Wort und Wortanzahl mit Wortanzahl zugeordnet. Klicken Sie in der Ausdrucksspalte auf […], um den Ausdrucksgenerator aufzurufen.

Wählen Sie nun StringHandling aus der Kategorieliste und der UPCASE-Funktion. Bearbeiten Sie den Ausdruck in "StringHandling.UPCASE (row3.word)" und klicken Sie auf "OK". Behalten Sie row3.wordcount in der Ausdrucksspalte bei, die der Wortanzahl entspricht (siehe unten).

Stellen Sie in tHDFSOutput eine Verbindung zu dem Hadoop-Cluster her, den wir aus dem Eigenschaftstyp als Repository erstellt haben. Beachten Sie, dass Felder automatisch ausgefüllt werden. Geben Sie unter Dateiname den Ausgabepfad an, in dem Sie die Ausgabe speichern möchten. Behalten Sie die Aktion, das Zeilentrennzeichen und das Feldtrennzeichen wie unten gezeigt bei.

Ausführen des MapReduce-Jobs

Wenn Ihre Konfiguration erfolgreich abgeschlossen wurde, klicken Sie auf Ausführen und führen Sie Ihren MapReduce-Job aus.

Gehen Sie zu Ihrem HDFS-Pfad und überprüfen Sie die Ausgabe. Beachten Sie, dass alle Wörter mit ihrer Wortzahl in Großbuchstaben geschrieben werden.

In diesem Kapitel lernen wir, wie man mit einem Pig-Job in Talend arbeitet.

Erstellen eines Talend Pig Jobs

In diesem Abschnitt erfahren Sie, wie Sie einen Pig-Job in Talend ausführen. Hier werden wir NYSE-Daten verarbeiten, um das durchschnittliche Lagervolumen von IBM zu ermitteln.

Klicken Sie dazu mit der rechten Maustaste auf Job Design und erstellen Sie einen neuen Job - pigjob. Erwähnen Sie die Details des Jobs und klicken Sie auf Fertig stellen.

Hinzufügen von Komponenten zum Pig Job

Um Komponenten zum Pig-Job hinzuzufügen, ziehen Sie vier Talend-Komponenten per Drag & Drop: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult von der Palette zum Designerfenster.

Klicken Sie dann mit der rechten Maustaste auf tPigLoad und erstellen Sie eine Pig Combine-Linie für tPigFilterRow. Klicken Sie anschließend mit der rechten Maustaste auf tPigFilterRow und erstellen Sie eine Pig Combine-Linie für tPigAggregate. Klicken Sie mit der rechten Maustaste auf tPigAggregate und erstellen Sie eine Pig-Kombinationslinie für tPigStoreResult.

Komponenten und Transformationen konfigurieren

Erwähnen Sie in tPigLoad die Distribution als Cloudera und die Version von Cloudera. Beachten Sie, dass der Namenode-URI "hdfs: //quickstart.cloudera: 8020" und der Ressourcenmanager "quickstart.cloudera: 8020" sein sollte. Außerdem sollte der Benutzername "cloudera" sein.

Geben Sie im URI der Eingabedatei den Pfad Ihrer NYSE-Eingabedatei zum Pig-Job an. Beachten Sie, dass diese Eingabedatei in HDFS vorhanden sein sollte.

Klicken Sie auf Schema bearbeiten, fügen Sie die Spalten und ihren Typ wie unten gezeigt hinzu.

Wählen Sie in tPigFilterRow die Option "Erweiterten Filter verwenden" aus und geben Sie "stock_symbol = = 'IBM'" in die Option "Filter" ein.

Klicken Sie in tAggregateRow auf Schema bearbeiten und fügen Sie die Spalte avg_stock_volume in die Ausgabe ein, wie unten gezeigt.

Fügen Sie nun die Spalte stock_exchange in die Option Gruppieren nach ein. Fügen Sie im Feld Operations die Spalte avg_stock_volume mit count Function und stock_exchange als Eingabespalte hinzu.

Geben Sie in tPigStoreResult den Ausgabepfad im URI des Ergebnisordners an, in dem Sie das Ergebnis des Pig-Jobs speichern möchten. Wählen Sie die Speicherfunktion als PigStorage und das Feldtrennzeichen (nicht obligatorisch) als "\ t".

Pig Job ausführen

Klicken Sie nun auf Ausführen, um Ihren Pig-Job auszuführen. (Ignorieren Sie die Warnungen)

Wenn der Job beendet ist, überprüfen Sie Ihre Ausgabe unter dem HDFS-Pfad, den Sie zum Speichern des Schweinejob-Ergebnisses angegeben haben. Das durchschnittliche Lagervolumen von IBM beträgt 500.

Lassen Sie uns in diesem Kapitel verstehen, wie man mit Hive Job bei Talend arbeitet.

Erstellen eines Talend Hive Jobs

Als Beispiel laden wir NYSE-Daten in eine Hive-Tabelle und führen eine grundlegende Hive-Abfrage aus. Klicken Sie mit der rechten Maustaste auf Job Design und erstellen Sie einen neuen Job - Hivejob. Erwähnen Sie die Details des Jobs und klicken Sie auf Fertig stellen.

Hinzufügen von Komponenten zum Hive Job

Um Komponenten einem Hive-Job zuzuordnen, ziehen Sie fünf Talend-Komponenten per Drag & Drop - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput und tLogRow - von der Palette zum Designerfenster. Klicken Sie dann mit der rechten Maustaste auf tHiveConnection und erstellen Sie den OnSubjobOk-Trigger für tHiveCreateTable. Klicken Sie nun mit der rechten Maustaste auf tHiveCreateTable und erstellen Sie den OnSubjobOk-Trigger für tHiveLoad. Klicken Sie mit der rechten Maustaste auf tHiveLoad und erstellen Sie einen iterativen Trigger für tHiveInput. Klicken Sie abschließend mit der rechten Maustaste auf tHiveInput und erstellen Sie eine Hauptzeile für tLogRow.

Komponenten und Transformationen konfigurieren

Wählen Sie in tHiveConnection die Distribution als Cloudera und die von Ihnen verwendete Version aus. Beachten Sie, dass der Verbindungsmodus eigenständig und der Hive-Dienst Hive 2 ist. Überprüfen Sie auch, ob die folgenden Parameter entsprechend eingestellt sind:

  • Host: "quickstart.cloudera"
  • Port: "10000"
  • Datenbank: "Standard"
  • Benutzername: "Bienenstock"

Beachten Sie, dass das Passwort automatisch ausgefüllt wird. Sie müssen es nicht bearbeiten. Auch andere Hadoop-Eigenschaften werden voreingestellt und standardmäßig festgelegt.

Wählen Sie in tHiveCreateTable die Option Vorhandene Verbindung verwenden aus und fügen Sie tHiveConnection in die Komponentenliste ein. Geben Sie den Tabellennamen an, den Sie in der Standarddatenbank erstellen möchten. Behalten Sie die anderen Parameter wie unten gezeigt bei.

Wählen Sie in tHiveLoad "Vorhandene Verbindung verwenden" aus und fügen Sie tHiveConnection in die Komponentenliste ein. Wählen Sie in der Aktion Laden die Option LADEN. Geben Sie unter Dateipfad den HDFS-Pfad Ihrer NYSE-Eingabedatei an. Erwähnen Sie die Tabelle in Tabellenname, in die Sie die Eingabe laden möchten. Behalten Sie die anderen Parameter wie unten gezeigt bei.

Wählen Sie in tHiveInput die Option Vorhandene Verbindung verwenden aus und fügen Sie tHiveConnection in die Komponentenliste ein. Klicken Sie auf Schema bearbeiten, fügen Sie die Spalten und ihren Typ hinzu, wie im folgenden Schema-Snapshot gezeigt. Geben Sie nun den Tabellennamen an, den Sie in tHiveCreateTable erstellt haben.

Fügen Sie Ihre Abfrage in die Abfrageoption ein, die Sie in der Hive-Tabelle ausführen möchten. Hier drucken wir alle Spalten der ersten 10 Zeilen in der Test-Hive-Tabelle.

Klicken Sie in tLogRow auf Spalten synchronisieren und wählen Sie Tabellenmodus, um die Ausgabe anzuzeigen.

Hive Job ausführen

Klicken Sie auf Ausführen, um die Ausführung zu starten. Wenn alle Verbindungen und Parameter korrekt eingestellt wurden, wird die Ausgabe Ihrer Abfrage wie unten gezeigt angezeigt.