Таленд - Краткое руководство

Talend - это платформа интеграции программного обеспечения, которая предоставляет решения для интеграции данных, качества данных, управления данными, подготовки данных и больших данных. Спрос на профессионалов ETL со знанием Talend высок. Кроме того, это единственный инструмент ETL со всеми плагинами, которые легко интегрируются с экосистемой больших данных.

Согласно Gartner, Talend попадает в магический квадрант лидеров для инструментов интеграции данных.

Таленд предлагает различные коммерческие продукты, перечисленные ниже -

  • Качество данных Talend
  • Интеграция данных Talend
  • Подготовка данных Talend
  • Таленд Облако
  • Talend Big Data
  • Платформа Talend MDM (Управление основными данными)
  • Платформа Talend Data Services
  • Менеджер метаданных Talend
  • Talend Data Fabric

Talend также предлагает Open Studio, бесплатный инструмент с открытым исходным кодом, широко используемый для интеграции данных и больших данных.

Ниже приведены системные требования для загрузки и работы в Talend Open Studio.

Рекомендуемая операционная система

  • Microsoft Windows 10
  • Ubuntu 16.04 LTS
  • Apple macOS 10.13 / High Sierra

Требования к памяти

  • Память - минимум 4 ГБ, рекомендуется 8 ГБ
  • Место для хранения - 30 ГБ

Кроме того, вам также потребуется работающий кластер Hadoop (предпочтительно Cloudera.

Note - Java 8 должна быть доступна с уже установленными переменными среды.

Чтобы загрузить Talend Open Studio для больших данных и интеграции данных, выполните следующие действия:

Step 1 - Перейти на страницу: https://www.talend.com/products/big-data/big-data-open-studio/и нажмите кнопку загрузки. Вы можете видеть, что файл TOS_BD_xxxxxxx.zip начинает скачиваться.

Step 2 - После завершения загрузки извлеките содержимое zip-файла, он создаст папку со всеми файлами Talend в ней.

Step 3- Откройте папку Talend и дважды щелкните исполняемый файл: TOS_BD-win-x86_64.exe. Примите Пользовательское лицензионное соглашение.

Step 4 - Создайте новый проект и нажмите Готово.

Step 5 - Нажмите «Разрешить доступ», если вы получите предупреждение системы безопасности Windows.

Step 6 - Теперь откроется страница приветствия Talend Open Studio.

Step 7 - Нажмите «Готово», чтобы установить необходимые сторонние библиотеки.

Step 8 - Примите условия и нажмите Готово.

Step 9 - Щелкните Да.

Теперь ваш Talend Open Studio готов с необходимыми библиотеками.

Talend Open Studio - это бесплатный инструмент ETL с открытым исходным кодом для интеграции данных и больших данных. Это инструмент разработчика и конструктор заданий на основе Eclipse. Вам просто нужно перетащить компоненты и подключить их для создания и выполнения заданий ETL или ETL. Инструмент автоматически создаст Java-код для работы, и вам не нужно писать ни одной строчки кода.

Существует несколько вариантов подключения к источникам данных, таким как СУБД, Excel, экосистема больших данных SaaS, а также к приложениям и технологиям, таким как SAP, CRM, Dropbox и многим другим.

Некоторые важные преимущества, которые предлагает Talend Open Studio, следующие:

  • Предоставляет все функции, необходимые для интеграции и синхронизации данных, с 900 компонентами, встроенными соединителями, автоматическим преобразованием заданий в код Java и многим другим.

  • Инструмент полностью бесплатный, что дает значительную экономию средств.

  • За последние 12 лет несколько гигантских организаций приняли TOS для интеграции данных, что показывает очень высокий фактор доверия к этому инструменту.

  • Сообщество Talend по интеграции данных очень активно.

  • Talend продолжает добавлять функции к этим инструментам, а документация хорошо структурирована и очень проста в использовании.

Большинство организаций получают данные из нескольких мест и хранят их отдельно. Теперь, если организация должна принимать решения, она должна брать данные из разных источников, помещать их в единое представление, а затем анализировать для получения результата. Этот процесс называется интеграцией данных.

Льготы

Интеграция данных предлагает множество преимуществ, как описано ниже -

  • Улучшает сотрудничество между различными командами в организации, пытающимися получить доступ к данным организации.

  • Экономит время и упрощает анализ данных, поскольку данные эффективно интегрируются.

  • Автоматизированный процесс интеграции данных синхронизирует данные и упрощает создание периодических отчетов в реальном времени, что в противном случае требует много времени, если выполняется вручную.

  • Данные, интегрированные из нескольких источников, со временем совершенствуются и совершенствуются, что в конечном итоге способствует повышению качества данных.

Работа с проектами

В этом разделе давайте разберемся, как работать над проектами Talend -

Создание проекта

Дважды щелкните исполняемый файл TOS Big Data, откроется окно, показанное ниже.

Выберите вариант «Создать новый проект», укажите название проекта и нажмите «Создать».

Выберите созданный вами проект и нажмите Готово.

Импорт проекта

Дважды щелкните исполняемый файл TOS Big Data, вы увидите окно, как показано ниже. Выберите опцию «Импортировать демонстрационный проект» и нажмите «Выбрать».

Вы можете выбрать один из вариантов, показанных ниже. Здесь мы выбираем демонстрации интеграции данных. Теперь нажмите Готово.

Теперь дайте название и описание проекта. Щелкните Готово.

Вы можете увидеть свой импортированный проект в списке существующих проектов.

Теперь давайте разберемся, как импортировать существующий проект Talend.

Выберите опцию «Импортировать существующий проект» и нажмите «Выбрать».

Дайте название проекту и выберите опцию «Выбрать корневой каталог».

Просмотрите свой существующий домашний каталог проекта Talend и нажмите Готово.

Ваш существующий проект Talend будет импортирован.

Открытие проекта

Выберите проект из существующего проекта и нажмите Готово. Это откроет этот проект Talend.

Удаление проекта

Чтобы удалить проект, нажмите «Управление подключениями».

Нажмите Удалить существующие проекты.

Выберите проект, который хотите удалить, и нажмите ОК.

Еще раз нажмите ОК.

Экспорт проекта

Нажмите кнопку «Экспорт проекта».

Выберите проект, который хотите экспортировать, и укажите путь, куда он должен быть экспортирован. Щелкните Готово.

Бизнес-модель - это графическое представление проекта интеграции данных. Это нетехническое представление рабочего процесса бизнеса.

Зачем вам нужна бизнес-модель?

Бизнес-модель построена для того, чтобы показать высшему руководству, что вы делаете, а также дать вашей команде понять, чего вы пытаетесь достичь. Разработка бизнес-модели считается одной из лучших практик, которую организации применяют в начале своего проекта интеграции данных. Кроме того, помогая снизить затраты, он находит и устраняет узкие места в вашем проекте. При необходимости модель может быть изменена во время и после реализации проекта.

Создание бизнес-модели в Talend Open Studio

Открытая студия Talend предоставляет несколько форм и соединителей для создания и разработки бизнес-модели. К каждому модулю бизнес-модели может быть прикреплена документация.

Talend Open Studio предлагает следующие формы и варианты соединителей для создания бизнес-модели:

  • Decision - Эта форма используется для помещения условия в модель.

  • Action - Эта форма используется для отображения любого преобразования, перевода или форматирования.

  • Terminal - Эта фигура показывает тип выходного терминала.

  • Data - Эта форма используется для отображения типа данных.

  • Document - Эта форма используется для вставки объекта документа, который может использоваться для ввода / вывода обработанных данных.

  • Input - Эта форма используется для вставки входного объекта, с помощью которого пользователь может передавать данные вручную.

  • List - Эта фигура содержит извлеченные данные, и ее можно определить для хранения только определенного типа данных в списке.

  • Database - Эта форма используется для хранения данных ввода / вывода.

  • Actor - Эта форма символизирует людей, участвующих в принятии решений и технических процессах.

  • Ellipse - Вставляет форму эллипса.

    Gear - Эта форма показывает ручные программы, которые необходимо заменить заданиями Talend.

Все операции в Talend выполняются коннекторами и компонентами. Talend предлагает более 800 разъемов и компонентов для выполнения нескольких операций. Эти компоненты представлены в палитре, и есть 21 основная категория, к которой они принадлежат. Вы можете выбрать соединители и просто перетащить их в панель дизайнера, он автоматически создаст Java-код, который будет скомпилирован при сохранении кода Talend.

Основные категории, которые содержат компоненты, показаны ниже -

Ниже приводится список широко используемых коннекторов и компонентов для интеграции данных в Talend Open Studio.

  • tMysqlConnection - Подключается к базе данных MySQL, определенной в компоненте.

  • tMysqlInput - Выполняет запрос к базе данных для чтения базы данных и извлечения полей (таблиц, представлений и т. Д.) В зависимости от запроса.

  • tMysqlOutput - Используется для записи, обновления, изменения данных в базе данных MySQL.

  • tFileInputDelimited - Считывает файл с разделителями строка за строкой, разделяет их на отдельные поля и передает их следующему компоненту.

  • tFileInputExcel - Считывает файл Excel построчно, разделяет их на отдельные поля и передает их следующему компоненту.

  • tFileList - Получает все файлы и каталоги из заданного шаблона маски файла.

  • tFileArchive - Сжимает набор файлов или папок в архивный файл zip, gzip или tar.gz.

  • tRowGenerator - Предоставляет редактор, в котором вы можете писать функции или выбирать выражения для создания ваших образцов данных.

  • tMsgBox - Возвращает диалоговое окно с указанным сообщением и кнопкой ОК.

  • tLogRow- Контролирует обработку данных. Он отображает данные / вывод в консоли запуска.

  • tPreJob - Определяет вспомогательные задания, которые будут выполняться перед фактическим запуском вашего задания.

  • tMap- Действует как плагин в студии Talend. Он берет данные из одного или нескольких источников, преобразует их, а затем отправляет преобразованные данные в одно или несколько мест назначения.

  • tJoin - Объединяет 2 таблицы, выполняя внутренние и внешние соединения между основным потоком и потоком поиска.

  • tJava - Позволяет использовать персонализированный код Java в программе Talend.

  • tRunJob - Управляет сложными системами заданий, выполняя одно задание Talend за другим.

Это техническая реализация / графическое представление бизнес-модели. В этом проекте один или несколько компонентов связаны друг с другом для запуска процесса интеграции данных. Таким образом, когда вы перетаскиваете компоненты в панель дизайна и затем подключаетесь с помощью соединителей, проект задания преобразует все в код и создает полную исполняемую программу, которая формирует поток данных.

Создание работы

В окне репозитория щелкните правой кнопкой мыши проект задания и выберите «Создать задание».

Введите название, цель и описание работы и нажмите Готово.

Вы можете видеть, что ваша работа была создана в разделе «Дизайн работы».

Теперь давайте воспользуемся этим заданием для добавления компонентов, их подключения и настройки. Здесь мы возьмем файл Excel в качестве входных данных и создадим файл Excel в качестве выходных данных с теми же данными.

Добавление компонентов в работу

В палитре можно выбрать несколько компонентов. Также есть опция поиска, в которой вы можете ввести имя компонента, чтобы выбрать его.

Поскольку здесь мы используем файл Excel в качестве входных данных, мы перетащим компонент tFileInputExcel из палитры в окно конструктора.

Теперь, если вы щелкните в любом месте окна дизайнера, появится поле поиска. Найдите tLogRow и выберите его, чтобы отобразить в окне дизайнера.

Наконец, выберите компонент tFileOutputExcel из палитры и перетащите его в окно дизайнера.

Теперь добавление компонентов завершено.

Подключение компонентов

После добавления компонентов необходимо их соединить. Щелкните правой кнопкой мыши первый компонент tFileInputExcel и нарисуйте основную линию до tLogRow, как показано ниже.

Точно так же щелкните правой кнопкой мыши tLogRow и нарисуйте основную линию на tFileOutputExcel. Теперь ваши компоненты подключены.

Настройка компонентов

После добавления и подключения компонентов в задание их необходимо настроить. Для этого дважды щелкните первый компонент tFileInputExcel, чтобы настроить его. Укажите путь к входному файлу в поле Имя файла / поток, как показано ниже.

Если ваша 1- я строка в Excel имеет имена столбцов, укажите 1 в поле заголовка.

Щелкните Изменить схему и добавьте столбцы и их тип в соответствии с исходным файлом Excel. После добавления схемы нажмите ОК.

Щелкните Да.

В компоненте tLogRow щелкните столбцы синхронизации и выберите режим, в котором вы хотите сгенерировать строки из вашего ввода. Здесь мы выбрали базовый режим с «,» в качестве разделителя полей.

Наконец, в компоненте tFileOutputExcel укажите путь к имени файла, в котором вы хотите сохранить

ваш выходной файл Excel с именем листа. Click on sync columns.

Выполнение задания

После того, как вы закончите добавление, подключение и настройку компонентов, вы готовы к выполнению задания Talend. Нажмите кнопку «Выполнить», чтобы начать выполнение.

Вы увидите результат в основном режиме с разделителем «,».

Вы также можете видеть, что ваш вывод сохраняется как файл Excel по указанному вами пути вывода.

Метаданные в основном означают данные о данных. Он рассказывает о том, что, когда, почему, кто, где, какие и как данные. В Talend метаданные содержат всю информацию о данных, которые присутствуют в Talend studio. Параметр метаданных присутствует на панели репозитория в Talend Open Studio.

В метаданных Talend представлены различные источники, такие как подключения к БД, различные типы файлов, LDAP, Azure, Salesforce, FTP веб-служб, кластер Hadoop и многие другие.

Основное использование метаданных в Talend Open Studio заключается в том, что вы можете использовать эти источники данных в нескольких заданиях, просто перетащив их с панели «Метаданные в репозитории».

Переменные контекста - это переменные, которые могут иметь разные значения в разных средах. Вы можете создать контекстную группу, которая может содержать несколько контекстных переменных. Вам не нужно добавлять каждую контекстную переменную по одной в задание, вы можете просто добавить контекстную группу в задание.

Эти переменные используются для подготовки к производству кода. Это означает, что с помощью переменных контекста вы можете перемещать код в среду разработки, тестирования или производства, он будет работать во всех средах.

В любом задании вы можете перейти на вкладку Contexts, как показано ниже, и добавить контекстные переменные.

В этой главе давайте рассмотрим управление заданиями и соответствующие функции, включенные в Talend.

Активация / деактивация компонента

Активировать / деактивировать компонент очень просто. Вам просто нужно выбрать компонент, щелкнуть по нему правой кнопкой мыши и выбрать параметр деактивировать или активировать этот компонент.

Импорт / экспорт предметов и строительных работ

Чтобы экспортировать элемент из задания, щелкните задание правой кнопкой мыши в разделе «Дизайн задания» и выберите «Экспорт элементов».

Введите путь, по которому вы хотите экспортировать элемент, и нажмите Готово.

Чтобы импортировать элемент из задания, щелкните задание правой кнопкой мыши в разделе «Дизайн задания» и выберите «Импорт элементов».

Просмотрите корневой каталог, из которого вы хотите импортировать элементы.

Установите все флажки и нажмите Готово.

В этой главе давайте разберемся, как обрабатывать выполнение задания в Talend.

Чтобы создать задание, щелкните его правой кнопкой мыши и выберите параметр «Создать задание».

Укажите путь, по которому вы хотите заархивировать задание, выберите версию задания и тип сборки, затем нажмите «Готово».

Как запустить задание в нормальном режиме

Чтобы запустить задание в обычном узле, вам нужно выбрать «Базовый запуск» и нажать кнопку «Выполнить», чтобы начать выполнение.

Как запустить задание в режиме отладки

Чтобы запустить задание в режиме отладки, добавьте точку останова к компонентам, которые нужно отлаживать.

Затем выберите и щелкните компонент правой кнопкой мыши, затем выберите параметр «Добавить точку останова». Обратите внимание, что здесь мы добавили точки останова в компоненты tFileInputExcel и tLogRow. Затем перейдите к «Выполнить отладку» и нажмите кнопку «Отладка Java».

На следующем снимке экрана вы можете увидеть, что задание теперь будет выполняться в режиме отладки и в соответствии с упомянутыми точками останова.

Расширенные настройки

В расширенных настройках вы можете выбрать Статистика, Время выполнения, Сохранить задание перед выполнением, Очистить перед запуском и настройки JVM. Каждый из этих вариантов имеет функции, как описано здесь -

  • Statistics - Отображает скорость обработки;

  • Exec Time - Время, затраченное на выполнение задания.

  • Save Job before Execution - Автоматически сохраняет задание перед началом выполнения.

  • Clear before Run - Удаляет все из консоли вывода.

  • JVM Settings - Помогает нам настраивать собственные аргументы Java.

Слоган для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного инструмента ETL с открытым исходным кодом для больших данных». В этой главе давайте рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных.

Введение

Talend Open Studio - Big Data - это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio доступно множество компонентов больших данных, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.

Кроме того, нам не нужно писать большие строки кода MapReduce; Talend Open Studio Big data поможет вам сделать это с помощью имеющихся в нем компонентов. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.

Он также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.

Компоненты Talend для больших данных

Список категорий с компонентами для запуска работы в среде больших данных, включенных в большие данные, показан ниже -

Список соединителей и компонентов больших данных в Talend Open Studio показан ниже -

  • tHDFSConnection - Используется для подключения к HDFS (распределенная файловая система Hadoop).

  • tHDFSInput - Считывает данные из заданного пути hdfs, помещает их в схему talend и затем передает их следующему компоненту задания.

  • tHDFSList - Извлекает все файлы и папки по заданному пути hdfs.

  • tHDFSPut - Копирует файл / папку из локальной файловой системы (определяемой пользователем) в hdfs по заданному пути.

  • tHDFSGet - Копирует файл / папку из hdfs в локальную файловую систему (определяемую пользователем) по заданному пути.

  • tHDFSDelete - Удаляет файл из HDFS

  • tHDFSExist - Проверяет, присутствует ли файл в HDFS или нет.

  • tHDFSOutput - Записывает потоки данных в HDFS.

  • tCassandraConnection - Открывает соединение с сервером Cassandra.

  • tCassandraRow - Выполняет запросы CQL (язык запросов Cassandra) в указанной базе данных.

  • tHBaseConnection - Открывает соединение с базой данных HBase.

  • tHBaseInput - читает данные из базы данных HBase.

  • tHiveConnection - Открывает соединение с базой данных Hive.

  • tHiveCreateTable - Создает таблицу в базе данных улья.

  • tHiveInput - Считывает данные из базы данных улья.

  • tHiveLoad - Записывает данные в таблицу куста или указанный каталог.

  • tHiveRow - выполняет запросы HiveQL к указанной базе данных.

  • tPigLoad - Загружает входные данные в выходной поток.

  • tPigMap - Используется для преобразования и маршрутизации данных в процессе скребка.

  • tPigJoin - Выполняет операцию соединения 2 файлов на основе ключей соединения.

  • tPigCoGroup - Группирует и объединяет данные, поступающие из нескольких входов.

  • tPigSort - Сортировка данных на основе одного или нескольких определенных ключей сортировки.

  • tPigStoreResult - Сохраняет результат работы скребка в определенном месте для хранения.

  • tPigFilterRow - Фильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

  • tPigDistinct - Удаляет повторяющиеся кортежи из отношения.

  • tSqoopImport - Переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

  • tSqoopExport - Переносит данные из HDFS в реляционные базы данных, такие как MySQL, Oracle DB.

В этой главе давайте подробно узнаем о том, как Talend работает с распределенной файловой системой Hadoop.

Настройки и предварительные условия

Прежде чем мы перейдем к Talend с HDFS, мы должны узнать о настройках и предварительных требованиях, которые должны быть выполнены для этой цели.

Здесь мы запускаем Cloudera quickstart 5.10 VM на виртуальной машине. На этой виртуальной машине должна использоваться сеть только для хоста.

IP-адрес сети только для хоста: 192.168.56.101

У вас должен быть тот же хост, работающий и на cloudera manager.

Теперь в вашей системе Windows перейдите к c: \ Windows \ System32 \ Drivers \ etc \ hosts и отредактируйте этот файл с помощью Блокнота, как показано ниже.

Точно так же на виртуальной машине быстрого запуска cloudera отредактируйте файл / etc / hosts, как показано ниже.

sudo gedit /etc/hosts

Настройка подключения Hadoop

На панели репозитория перейдите в Метаданные. Щелкните правой кнопкой мыши Hadoop Cluster и создайте новый кластер. Дайте имя, цель и описание для этого кластерного подключения Hadoop.

Нажмите "Далее.

Выберите дистрибутив cloudera и выберите версию, которую вы используете. Выберите вариант получения конфигурации и нажмите Далее.

Введите учетные данные менеджера (URI с портом, именем пользователя, паролем), как показано ниже, и нажмите «Подключиться». Если данные верны, вы получите Cloudera QuickStart под обнаруженными кластерами.

Щелкните "Получить". Это позволит получить все подключения и конфигурации для HDFS, YARN, HBASE, HIVE.

Выберите «Все» и нажмите «Готово».

Обратите внимание, что все параметры подключения будут заполнены автоматически. Упомяните cloudera в имени пользователя и нажмите Готово.

Таким образом, вы успешно подключились к кластеру Hadoop.

Подключение к HDFS

В этом задании мы перечислим все каталоги и файлы, которые присутствуют в HDFS.

Сначала мы создадим задание, а затем добавим в него компоненты HDFS. Щелкните правой кнопкой мыши на Job Design и создайте новое задание - hadoopjob.

Теперь добавляем 2 компонента из палитры - tHDFSConnection и tHDFSList. Щелкните правой кнопкой мыши tHDFSConnection и соедините эти 2 компонента с помощью триггера OnSubJobOk.

Теперь настройте оба компонента talend hdfs.

В tHDFSConnection выберите Repository в качестве типа свойства и выберите кластер Hadoop cloudera, который вы создали ранее. Он автоматически заполнит все необходимые данные, необходимые для этого компонента.

В tHDFSList выберите «Использовать существующее соединение» и в списке компонентов выберите настроенное вами соединение tHDFSConnection.

Укажите домашний путь HDFS в параметре каталога HDFS и нажмите кнопку обзора справа.

Если вы правильно установили соединение с вышеупомянутыми конфигурациями, вы увидите окно, как показано ниже. В нем будут перечислены все каталоги и файлы, имеющиеся в домашней файловой системе HDFS.

Вы можете убедиться в этом, проверив свою HDFS на cloudera.

Чтение файла из HDFS

В этом разделе давайте разберемся, как читать файл из HDFS в Talend. Для этого вы можете создать новое задание, но здесь мы используем уже существующее.

Перетащите 3 компонента - tHDFSConnection, tHDFSInput и tLogRow из палитры в окно конструктора.

Щелкните правой кнопкой мыши tHDFSConnection и подключите компонент tHDFSInput с помощью триггера OnSubJobOk.

Щелкните правой кнопкой мыши tHDFSInput и перетащите основную ссылку на tLogRow.

Обратите внимание, что tHDFSConnection будет иметь такую ​​же конфигурацию, как и раньше. В tHDFSInput выберите «Использовать существующее соединение» и в списке компонентов выберите tHDFSConnection.

В поле «Имя файла» укажите путь HDFS к файлу, который вы хотите прочитать. Здесь мы читаем простой текстовый файл, поэтому наш Тип файла - Текстовый файл. Точно так же, в зависимости от вашего ввода, заполните разделитель строк, разделитель полей и детали заголовка, как указано ниже. Наконец, нажмите кнопку «Изменить схему».

Поскольку в нашем файле просто текст, мы добавляем только один столбец типа String. Теперь нажмите ОК.

Note - Если ваш ввод содержит несколько столбцов разных типов, вам необходимо указать здесь схему соответственно.

В компоненте tLogRow щелкните Синхронизировать столбцы в схеме редактирования.

Выберите режим, в котором вы хотите распечатать свой вывод.

Наконец, нажмите «Выполнить», чтобы выполнить задание.

После успешного чтения файла HDFS вы можете увидеть следующий результат.

Запись файла в HDFS

Посмотрим, как записать файл из HDFS в Talend. Перетащите 3 компонента - tHDFSConnection, tFileInputDelimited и tHDFSOutput из палитры в окно конструктора.

Щелкните правой кнопкой мыши на tHDFSConnection и подключите компонент tFileInputDelimited с помощью триггера OnSubJobOk.

Щелкните правой кнопкой мыши tFileInputDelimited и перетащите основную ссылку на tHDFSOutput.

Обратите внимание, что tHDFSConnection будет иметь такую ​​же конфигурацию, как и раньше.

Теперь в tFileInputDelimited укажите путь к входному файлу в опции File name / Stream. Здесь мы используем файл csv в качестве входных данных, поэтому разделителем полей является «,».

Выберите верхний, нижний колонтитул, ограничение в соответствии с вашим входным файлом. Обратите внимание, что здесь наш заголовок равен 1, потому что первая строка содержит имена столбцов, а ограничение - 3, потому что мы записываем только первые 3 строки в HDFS.

Теперь щелкните изменить схему.

Теперь, в соответствии с нашим входным файлом, определите схему. Наш входной файл имеет 3 столбца, как указано ниже.

В компоненте tHDFSOutput щелкните столбцы синхронизации. Затем выберите tHDFSConnection в Использовать существующее соединение. Кроме того, в поле «Имя файла» укажите путь HDFS, куда вы хотите записать файл.

Обратите внимание, что тип файла будет текстовым, действием будет «создать», разделителем строк будет «\ n», а разделителем полей - «;»

Наконец, нажмите «Выполнить», чтобы выполнить задание. После успешного выполнения задания проверьте, есть ли ваш файл в HDFS.

Выполните следующую команду hdfs с выходным путем, который вы указали в своем задании.

hdfs dfs -cat /input/talendwrite

Вы увидите следующий результат, если вам удастся написать на HDFS.

В предыдущей главе мы увидели, как Talend работает с большими данными. В этой главе давайте поймем, как использовать карту Reduce с Talend.

Создание задания Talend MapReduce

Давайте узнаем, как запустить задание MapReduce в Talend. Здесь мы запустим пример подсчета слов MapReduce.

Для этого щелкните правой кнопкой мыши Job Design и создайте новое задание - MapreduceJob. Укажите подробные сведения о работе и нажмите «Готово».

Добавление компонентов в задание MapReduce

Чтобы добавить компоненты в задание MapReduce, перетащите пять компонентов Talend - tHDFSInput, tNormalize, tAggregateRow, tMap, tOutput из поддона в окно конструктора. Щелкните правой кнопкой мыши на tHDFSInput и создайте основную ссылку на tNormalize.

Щелкните правой кнопкой мыши tNormalize и создайте основную ссылку на tAggregateRow. Затем щелкните правой кнопкой мыши tAggregateRow и создайте основную ссылку на tMap. Теперь щелкните правой кнопкой мыши на tMap и создайте основную ссылку на tHDFSOutput.

Настройка компонентов и преобразований

В tHDFSInput выбираем дистрибутив cloudera и его версию. Обратите внимание, что URI Namenode должен быть «hdfs: //quickstart.cloudera: 8020», а имя пользователя должно быть «cloudera». В параметре имени файла укажите путь к входному файлу для задания MapReduce. Убедитесь, что этот входной файл присутствует в HDFS.

Теперь выберите тип файла, разделитель строк, разделитель файлов и заголовок в соответствии с вашим входным файлом.

Щелкните изменить схему и добавьте поле «строка» в качестве строкового типа.

В tNomalize столбец для нормализации будет строкой, а разделителем элементов будет пробел -> ««. Теперь щелкните изменить схему. tNormalize будет иметь строковый столбец, а tAggregateRow будет иметь 2 столбца word и wordcount, как показано ниже.

В tAggregateRow поместите слово как выходной столбец в параметре «Группировать по». В операциях укажите wordcount как выходной столбец, функцию как count и позицию входного столбца как строку.

Теперь дважды щелкните компонент tMap, чтобы войти в редактор карт и сопоставить ввод с требуемым выводом. В этом примере слово отображается в слово, а количество слов отображается в слово. В столбце выражения щелкните […], чтобы войти в построитель выражения.

Теперь выберите StringHandling из списка категорий и функцию UPCASE. Измените выражение на «StringHandling.UPCASE (row3.word)» и нажмите «ОК». Сохраните row3.wordcount в столбце выражения, соответствующем количеству слов, как показано ниже.

В tHDFSOutput подключитесь к кластеру Hadoop, который мы создали из типа свойства в качестве репозитория. Обратите внимание, что поля будут заполнены автоматически. В поле Имя файла укажите путь вывода, в котором вы хотите сохранить вывод. Сохраните действие, разделитель строк и разделитель полей, как показано ниже.

Выполнение задания MapReduce

После успешного завершения настройки нажмите «Выполнить» и выполните задание MapReduce.

Перейдите по пути к HDFS и проверьте результат. Обратите внимание, что все слова будут в верхнем регистре с их количеством слов.

В этой главе давайте узнаем, как работать с заданием Pig в Talend.

Создание работы со свиньей талендом

В этом разделе давайте узнаем, как запустить задание Pig в Talend. Здесь мы обработаем данные NYSE, чтобы узнать средний объем запасов IBM.

Для этого щелкните правой кнопкой мыши Job Design и создайте новую работу - pigjob. Укажите подробные сведения о работе и нажмите «Готово».

Добавление компонентов в работу со свиньей

Чтобы добавить компоненты в задание Pig, перетащите четыре компонента Talend: tPigLoad, tPigFilterRow, tPigAggregate, tPigStoreResult из палитры в окно конструктора.

Затем щелкните правой кнопкой мыши tPigLoad и создайте строку Pig Combine для tPigFilterRow. Затем щелкните правой кнопкой мыши tPigFilterRow и создайте строку Pig Combine для tPigAggregate. Щелкните правой кнопкой мыши tPigAggregate и создайте строку объединения Pig для tPigStoreResult.

Настройка компонентов и преобразований

В tPigLoad укажите дистрибутив cloudera и версию cloudera. Обратите внимание, что URI Namenode должен иметь вид «hdfs: //quickstart.cloudera: 8020», а диспетчер ресурсов - «quickstart.cloudera: 8020». Также имя пользователя должно быть «cloudera».

В URI входного файла укажите путь к входному файлу NYSE для задания свиньи. Обратите внимание, что этот входной файл должен присутствовать в HDFS.

Щелкните изменить схему, добавьте столбцы и их тип, как показано ниже.

В tPigFilterRow выберите параметр «Использовать расширенный фильтр» и поместите «stock_symbol = = 'IBM'» в параметр «Фильтр».

В tAggregateRow щелкните изменить схему и добавьте столбец avg_stock_volume в вывод, как показано ниже.

Теперь поместите столбец stock_exchange в параметр «Группировать по». Добавьте столбец avg_stock_volume в поле операций с функцией count и stock_exchange в качестве входного столбца.

В tPigStoreResult укажите путь вывода в URI папки результатов, где вы хотите сохранить результат задания Pig. Выберите функцию хранения как PigStorage и разделитель полей (не обязательно) как «\ t».

Выполнение работы свиньи

Теперь нажмите «Выполнить», чтобы выполнить задание «Свинья». (Игнорируйте предупреждения)

Как только задание завершится, перейдите и проверьте свой вывод по указанному вами пути HDFS для сохранения результатов задания свиньи. Средний объем акций IBM составляет 500 штук.

В этой главе давайте разберемся, как работать с Hive job в Talend.

Создание задания улья таленд

В качестве примера мы загрузим данные NYSE в таблицу куста и выполним базовый запрос куста. Щелкните правой кнопкой мыши на Job Design и создайте новую работу - hivejob. Укажите детали работы и нажмите Готово.

Добавление компонентов в работу Hive

Чтобы добавить компоненты в задание Hive, перетащите пять компонентов talend - tHiveConnection, tHiveCreateTable, tHiveLoad, tHiveInput и tLogRow из поддона в окно конструктора. Затем щелкните правой кнопкой мыши tHiveConnection и создайте триггер OnSubjobOk для tHiveCreateTable. Теперь щелкните правой кнопкой мыши tHiveCreateTable и создайте триггер OnSubjobOk для tHiveLoad. Щелкните правой кнопкой мыши tHiveLoad и создайте триггер итерации на tHiveInput. Наконец, щелкните правой кнопкой мыши tHiveInput и создайте основную строку для tLogRow.

Настройка компонентов и преобразований

В tHiveConnection выберите дистрибутив cloudera и его версию, которую вы используете. Обратите внимание, что режим подключения будет автономным, а Hive Service будет Hive 2. Также проверьте, установлены ли соответственно следующие параметры:

  • Хост: «quickstart.cloudera»
  • Порт: «10000»
  • База данных: «по умолчанию»
  • Имя пользователя: «улей»

Обратите внимание, что пароль будет заполнен автоматически, вам не нужно его редактировать. Также будут предварительно установлены и установлены другие свойства Hadoop по умолчанию.

В tHiveCreateTable выберите Use an existing connection и поместите tHiveConnection в список компонентов. Дайте имя таблицы, которую вы хотите создать в базе данных по умолчанию. Остальные параметры оставьте, как показано ниже.

В tHiveLoad выберите «Использовать существующее соединение» и поместите tHiveConnection в список компонентов. Выберите LOAD в действии Load. В поле «Путь к файлу» укажите путь HDFS к входному файлу NYSE. Упомяните таблицу в названии таблицы, в которую вы хотите загрузить ввод. Остальные параметры оставьте, как показано ниже.

В tHiveInput выберите Использовать существующее соединение и поместите tHiveConnection в список компонентов. Щелкните изменить схему, добавьте столбцы и их тип, как показано на снимке схемы ниже. Теперь дайте имя таблицы, которую вы создали в tHiveCreateTable.

Поместите свой запрос в параметр запроса, который вы хотите запустить в таблице Hive. Здесь мы печатаем все столбцы первых 10 строк в таблице тестового куста.

В tLogRow щелкните столбцы синхронизации и выберите режим таблицы для отображения вывода.

Выполнение работы Hive

Нажмите «Выполнить», чтобы начать выполнение. Если все соединения и параметры были установлены правильно, вы увидите результат своего запроса, как показано ниже.