Таленд - большие данные

Слоган для Open Studio с большими данными: «Упростите ETL и ELT с помощью ведущего бесплатного инструмента ETL с открытым исходным кодом для больших данных». В этой главе давайте рассмотрим использование Talend в качестве инструмента для обработки данных в среде больших данных.

Введение

Talend Open Studio - Big Data - это бесплатный инструмент с открытым исходным кодом для очень простой обработки ваших данных в среде больших данных. В Talend Open Studio доступно множество компонентов больших данных, которые позволяют создавать и запускать задания Hadoop простым перетаскиванием нескольких компонентов Hadoop.

Кроме того, нам не нужно писать большие строки кода MapReduce; Talend Open Studio Big data поможет вам сделать это с помощью имеющихся в нем компонентов. Он автоматически генерирует код MapReduce для вас, вам просто нужно перетащить компоненты и настроить несколько параметров.

Он также дает вам возможность подключиться к нескольким дистрибутивам больших данных, таким как Cloudera, HortonWorks, MapR, Amazon EMR и даже Apache.

Компоненты Talend для больших данных

Список категорий с компонентами для запуска работы в среде больших данных, включенных в большие данные, показан ниже -

Список соединителей и компонентов больших данных в Talend Open Studio показан ниже -

  • tHDFSConnection - Используется для подключения к HDFS (распределенная файловая система Hadoop).

  • tHDFSInput - Считывает данные из заданного пути hdfs, помещает их в схему talend и затем передает их следующему компоненту в задании.

  • tHDFSList - Извлекает все файлы и папки по заданному пути hdfs.

  • tHDFSPut - Копирует файл / папку из локальной файловой системы (определяемой пользователем) в hdfs по заданному пути.

  • tHDFSGet - Копирует файл / папку с hdfs в локальную файловую систему (определяемую пользователем) по заданному пути.

  • tHDFSDelete - Удаляет файл из HDFS

  • tHDFSExist - Проверяет, присутствует ли файл в HDFS или нет.

  • tHDFSOutput - Записывает потоки данных в HDFS.

  • tCassandraConnection - Открывает соединение с сервером Cassandra.

  • tCassandraRow - Выполняет запросы CQL (язык запросов Cassandra) в указанной базе данных.

  • tHBaseConnection - Открывает соединение с базой данных HBase.

  • tHBaseInput - читает данные из базы данных HBase.

  • tHiveConnection - Открывает соединение с базой данных Hive.

  • tHiveCreateTable - Создает таблицу в базе данных улья.

  • tHiveInput - Читает данные из базы данных улья.

  • tHiveLoad - Записывает данные в таблицу куста или указанный каталог.

  • tHiveRow - выполняет запросы HiveQL к указанной базе данных.

  • tPigLoad - Загружает входные данные в выходной поток.

  • tPigMap - Используется для преобразования и маршрутизации данных в процессе скребка.

  • tPigJoin - Выполняет операцию соединения 2 файлов на основе ключей соединения.

  • tPigCoGroup - Группирует и объединяет данные, поступающие из нескольких входов.

  • tPigSort - Сортировка данных на основе одного или нескольких определенных ключей сортировки.

  • tPigStoreResult - Сохраняет результат работы скребка в определенном месте для хранения.

  • tPigFilterRow - Фильтрует указанные столбцы, чтобы разделить данные на основе заданного условия.

  • tPigDistinct - Удаляет повторяющиеся кортежи из отношения.

  • tSqoopImport - Переносит данные из реляционной базы данных, такой как MySQL, Oracle DB, в HDFS.

  • tSqoopExport - Переносит данные из HDFS в реляционные базы данных, такие как MySQL, Oracle DB.