Apache Flume - Введение
Что такое Flume?
Apache Flume - это инструмент / сервис / механизм приема данных для сбора, агрегирования и транспортировки больших объемов потоковых данных, таких как файлы журналов, события (и т. Д.) Из различных источников в централизованное хранилище данных.
Flume - это высоконадежный, распределенный и настраиваемый инструмент. Он в основном предназначен для копирования потоковых данных (данных журнала) с различных веб-серверов в HDFS.
Приложения Flume
Предположим, веб-приложение электронной коммерции хочет анализировать поведение клиентов из определенного региона. Для этого им нужно будет переместить доступные данные журнала в Hadoop для анализа. Здесь нам на помощь приходит Apache Flume.
Flume используется для более быстрого перемещения данных журнала, созданных серверами приложений, в HDFS.
Преимущества Flume
Вот преимущества использования Flume -
Используя Apache Flume, мы можем хранить данные в любом из централизованных хранилищ (HBase, HDFS).
Когда скорость входящих данных превышает скорость, с которой данные могут быть записаны в место назначения, Flume действует как посредник между поставщиками данных и централизованными хранилищами и обеспечивает устойчивый поток данных между ними.
Flume обеспечивает функцию contextual routing.
Транзакции в Flume основаны на каналах, где для каждого сообщения поддерживаются две транзакции (один отправитель и один получатель). Это гарантирует надежную доставку сообщений.
Flume является надежным, отказоустойчивым, масштабируемым, управляемым и настраиваемым.
Особенности Flume
Некоторые из примечательных особенностей Flume следующие:
Flume эффективно загружает данные журналов с нескольких веб-серверов в централизованное хранилище (HDFS, HBase).
Используя Flume, мы можем сразу же получать данные с нескольких серверов в Hadoop.
Наряду с файлами журналов Flume также используется для импорта огромных объемов данных о событиях, созданных сайтами социальных сетей, такими как Facebook и Twitter, и сайтами электронной коммерции, такими как Amazon и Flipkart.
Flume поддерживает большой набор типов источников и мест назначения.
Flume поддерживает потоки с несколькими переходами, потоки разветвления, контекстную маршрутизацию и т. Д.
Лоток можно масштабировать по горизонтали.