Talend - Travailler avec Pig
Dans ce chapitre, apprenons à travailler avec un job Pig dans Talend.
Créer un Job Talend Pig
Dans cette section, apprenons à exécuter un job Pig sur Talend. Ici, nous traiterons les données du NYSE pour connaître le volume moyen des stocks d'IBM.
Pour cela, faites un clic droit sur Job Design et créez un nouveau job - pigjob. Mentionnez les détails du travail et cliquez sur Terminer.
Ajout de composants au travail Pig
Pour ajouter des composants à la tâche Pig, faites glisser et déposez quatre composants Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult, de la palette vers la fenêtre du concepteur.
Ensuite, faites un clic droit sur le tPigLoad et créez la ligne Pig Combine sur le tPigFilterRow. Ensuite, faites un clic droit sur le tPigFilterRow et créez la ligne Pig Combine sur le tPigAggregate. Cliquez avec le bouton droit sur le tPigAggregate et créez la ligne de combinaison Pig vers le tPigStoreResult.
Configuration des composants et des transformations
Dans le tPigLoad, mentionnez la distribution comme cloudera et la version de cloudera. Notez que l'URI Namenode doit être «hdfs: //quickstart.cloudera: 8020» et que Resource Manager doit être «quickstart.cloudera: 8020». De plus, le nom d'utilisateur doit être «cloudera».
Dans l'URI du fichier d'entrée, indiquez le chemin de votre fichier d'entrée NYSE vers le travail de porc. Notez que ce fichier d'entrée doit être présent sur HDFS.
Cliquez sur modifier le schéma, ajoutez les colonnes et son type comme indiqué ci-dessous.
Dans le tPigFilterRow, sélectionnez l'option «Utiliser le filtre avancé» et mettez «stock_symbol = = 'IBM'» dans l'option Filtre.
Dans le tAggregateRow, cliquez sur modifier le schéma et ajoutez la colonne avg_stock_volume en sortie comme indiqué ci-dessous.
Maintenant, placez la colonne stock_exchange dans l'option Group by. Ajoutez la colonne avg_stock_volume dans le champ Opérations avec la fonction count et stock_exchange comme colonne d'entrée.
Dans le tPigStoreResult, indiquez le chemin de sortie dans l'URI du dossier de résultats où vous souhaitez stocker le résultat du travail Pig. Sélectionnez la fonction de stockage comme PigStorage et le séparateur de champ (non obligatoire) comme «\ t».
Exécution du travail Pig
Cliquez maintenant sur Exécuter pour exécuter votre tâche Pig. (Ignorez les avertissements)
Une fois le travail terminé, vérifiez votre sortie sur le chemin HDFS que vous avez mentionné pour stocker le résultat du travail de porc. Le volume de stock moyen d'IBM est de 500.