Talend - Ruche

Dans ce chapitre, voyons comment travailler avec Hive job sur Talend.

Créer un Job Talend Hive

À titre d'exemple, nous allons charger les données NYSE dans une table Hive et exécuter une requête Hive de base. Faites un clic droit sur Job Design et créez un nouveau job - hivejob. Mentionnez les détails du travail et cliquez sur Terminer.

Ajout de composants à Hive Job

Pour associer des composants à un travail Hive, faites glisser et déposez cinq composants talend - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput et tLogRow de la palette vers la fenêtre du concepteur. Ensuite, faites un clic droit sur le tHiveConnection et créez le déclencheur OnSubjobOk sur le tHiveCreateTable. Maintenant, faites un clic droit sur le tHiveCreateTable et créez le déclencheur OnSubjobOk sur le tHiveLoad. Faites un clic droit sur le tHiveLoad et créez un trigger d'itération sur le tHiveInput. Enfin, faites un clic droit sur le tHiveInput et créez une ligne principale vers le tLogRow.

Configuration des composants et des transformations

Dans le tHiveConnection, sélectionnez la distribution en tant que cloudera et sa version que vous utilisez. Notez que le mode de connexion sera autonome et Hive Service sera Hive 2. Vérifiez également si les paramètres suivants sont définis en conséquence -

Hôte: "quickstart.cloudera"
Port: "10000"
Base de données: "par défaut"
Nom d'utilisateur: "hive"

Notez que le mot de passe sera rempli automatiquement, vous n'avez pas besoin de le modifier. D'autres propriétés Hadoop seront également prédéfinies et définies par défaut.

Dans le tHiveCreateTable, sélectionnez Use an existing connection et placez le tHiveConnection dans la liste Component. Donnez le nom de la table que vous souhaitez créer dans la base de données par défaut. Conservez les autres paramètres comme indiqué ci-dessous.

Dans le tHiveLoad, sélectionnez «Utiliser une connexion existante» et placez le tHiveConnection dans la liste des composants. Sélectionnez CHARGER dans l'action Charger. Dans File Path, indiquez le chemin HDFS de votre fichier d'entrée NYSE. Mentionnez la table dans Nom de la table, dans laquelle vous souhaitez charger l'entrée. Conservez les autres paramètres comme indiqué ci-dessous.

Dans le tHiveInput, sélectionnez Utiliser une connexion existante et placez le tHiveConnection dans la liste des composants. Cliquez sur modifier le schéma, ajoutez les colonnes et son type comme indiqué dans l'instantané de schéma ci-dessous. Donnez maintenant le nom de la table que vous avez créée dans le tHiveCreateTable.

Mettez votre requête en option de requête que vous souhaitez exécuter sur la table Hive. Ici, nous imprimons toutes les colonnes des 10 premières lignes de la table de test de la ruche.

Dans le tLogRow, cliquez sur synchroniser les colonnes et sélectionnez le mode Table pour afficher la sortie.

Exécution du travail Hive

Cliquez sur Exécuter pour commencer l'exécution. Si toute la connexion et les paramètres ont été définis correctement, vous verrez la sortie de votre requête comme indiqué ci-dessous.