Таленд - Работа со свиньей
В этой главе давайте узнаем, как работать с заданием Pig в Talend.
Создание работы со свиньей талендом
В этом разделе давайте узнаем, как запустить задание Pig в Talend. Здесь мы обработаем данные NYSE, чтобы узнать средний объем запасов IBM.
Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу - pigjob. Укажите подробные сведения о работе и нажмите «Готово».
Добавление компонентов в работу со свиньей
Чтобы добавить компоненты в задание Pig, перетащите четыре компонента Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult из палитры в окно конструктора.
Затем щелкните правой кнопкой мыши tPigLoad и создайте строку Pig Combine для tPigFilterRow. Затем щелкните правой кнопкой мыши tPigFilterRow и создайте строку Pig Combine для tPigAggregate. Щелкните правой кнопкой мыши tPigAggregate и создайте строку объединения Pig для tPigStoreResult.
Настройка компонентов и преобразований
В tPigLoad укажите дистрибутив cloudera и версию cloudera. Обратите внимание, что URI Namenode должен иметь вид «hdfs: //quickstart.cloudera: 8020», а диспетчер ресурсов - «quickstart.cloudera: 8020». Также имя пользователя должно быть «cloudera».
В URI входного файла укажите путь вашего входного файла NYSE к заданию свиньи. Обратите внимание, что этот входной файл должен присутствовать в HDFS.
Щелкните изменить схему, добавьте столбцы и их тип, как показано ниже.
В tPigFilterRow выберите параметр «Использовать расширенный фильтр» и поместите «stock_symbol = = 'IBM'» в параметр «Фильтр».
В tAggregateRow щелкните изменить схему и добавьте столбец avg_stock_volume в вывод, как показано ниже.
Теперь поместите столбец stock_exchange в параметр «Группировать по». Добавьте столбец avg_stock_volume в поле операций с функцией count и stock_exchange в качестве входного столбца.
В tPigStoreResult укажите путь вывода в URI папки результатов, где вы хотите сохранить результат задания Pig. Выберите функцию хранения как PigStorage и разделитель полей (не обязательно) как «\ t».
Выполнение работы свиньи
Теперь нажмите «Выполнить», чтобы выполнить задание «Свинья». (Игнорируйте предупреждения)
Как только задание завершится, перейдите и проверьте свой вывод по указанному вами пути HDFS для сохранения результатов задания свиньи. Средний объем акций IBM составляет 500 штук.