Apache Flume - Wprowadzenie
Co to jest Flume?
Apache Flume to narzędzie / usługa / mechanizm pozyskiwania danych do gromadzenia, agregowania i transportu dużych ilości danych strumieniowych, takich jak pliki dziennika, zdarzenia (itp.) Z różnych źródeł do scentralizowanego magazynu danych.
Flume to wysoce niezawodne, rozproszone i konfigurowalne narzędzie. Jest przeznaczony głównie do kopiowania danych strumieniowych (danych dziennika) z różnych serwerów internetowych do HDFS.
Zastosowania Flume
Załóżmy, że aplikacja internetowa do handlu elektronicznego chce analizować zachowanie klientów z określonego regionu. Aby to zrobić, musieliby przenieść dostępne dane dziennika do Hadoop w celu analizy. Tutaj z pomocą przychodzi nam Apache Flume.
Flume służy do przenoszenia danych dziennika generowanych przez serwery aplikacji do HDFS z większą prędkością.
Zalety Flume
Oto zalety korzystania z Flume -
Korzystając z Apache Flume możemy przechowywać dane w dowolnym ze scentralizowanych sklepów (HBase, HDFS).
Gdy szybkość napływających danych przekracza szybkość, z jaką dane mogą być zapisywane w miejscu docelowym, Flume działa jako pośrednik między producentami danych a scentralizowanymi magazynami i zapewnia stały przepływ danych między nimi.
Flume zapewnia funkcję contextual routing.
Transakcje w Flume są oparte na kanałach, gdzie dla każdej wiadomości są utrzymywane dwie transakcje (jeden nadawca i jeden odbiorca). Gwarantuje niezawodne dostarczanie wiadomości.
Flume jest niezawodny, odporny na błędy, skalowalny, łatwy w zarządzaniu i dostosowywalny.
Funkcje Flume
Niektóre z godnych uwagi cech Flume są następujące -
Flume efektywnie pozyskuje dane dziennika z wielu serwerów internetowych do scentralizowanego magazynu (HDFS, HBase).
Korzystając z Flume, możemy natychmiast pobrać dane z wielu serwerów do Hadoop.
Wraz z plikami dziennika Flume jest również używany do importowania ogromnych ilości danych o wydarzeniach generowanych przez serwisy społecznościowe, takie jak Facebook i Twitter, oraz witryny handlu elektronicznego, takie jak Amazon i Flipkart.
Flume obsługuje duży zestaw typów źródeł i miejsc docelowych.
Flume obsługuje przepływy multi-hop, przepływy fan-in, fan-out, kontekstowe trasowanie itp.
Koryto można skalować w poziomie.