Apache Flume-아키텍처

다음 그림은 Flume의 기본 아키텍처를 보여줍니다. 그림과 같이data generators (예 : Facebook, Twitter) 개별 Flume에서 수집하는 데이터 생성 agents그들에서 실행. 그 후data collector (또한 에이전트이기도 함) HDFS 또는 HBase와 같은 중앙 집중식 저장소로 집계되고 푸시되는 에이전트에서 데이터를 수집합니다.

Flume 이벤트

event 내부로 전송되는 데이터의 기본 단위입니다. Flume. 여기에는 선택적 헤더와 함께 소스에서 대상으로 전송 될 바이트 배열의 페이로드가 포함됩니다. 전형적인 Flume 이벤트는 다음과 같은 구조를 갖습니다.

Flume 에이전트

agentFlume의 독립 데몬 프로세스 (JVM)입니다. 클라이언트 또는 다른 에이전트로부터 데이터 (이벤트)를 수신하고 다음 대상 (싱크 또는 에이전트)으로 전달합니다. Flume에는 하나 이상의 약제가있을 수 있습니다. 다음 다이어그램은Flume Agent

다이어그램에서 볼 수 있듯이 Flume 에이전트는 세 가지 주요 구성 요소를 포함합니다. source, channel, 및 sink.

출처

source 데이터 생성기에서 데이터를 수신하여 Flume 이벤트의 형태로 하나 이상의 채널로 전송하는 에이전트의 구성 요소입니다.

Apache Flume은 여러 유형의 소스를 지원하며 각 소스는 지정된 데이터 생성기에서 이벤트를 수신합니다.

Example − Avro 소스, Thrift 소스, 트위터 1 % 소스 등

채널

channel소스에서 이벤트를 수신하고 싱크에서 사용할 때까지 버퍼링하는 임시 저장소입니다. 소스와 싱크 사이의 다리 역할을합니다.

이러한 채널은 완전히 트랜잭션되며 여러 소스 및 싱크와 함께 작동 할 수 있습니다.

Example − JDBC 채널, 파일 시스템 채널, 메모리 채널 등

싱크대

sink데이터를 HBase 및 HDFS와 같은 중앙 집중식 저장소에 저장합니다. 채널에서 데이터 (이벤트)를 사용하여 대상으로 전달합니다. 싱크의 대상은 다른 에이전트 또는 중앙 저장소 일 수 있습니다.

Example − HDFS 싱크

Note− 수로 에이전트는 여러 소스, 싱크 및 채널을 가질 수 있습니다. 이 튜토리얼의 Flume 구성 장에서 지원되는 모든 소스, 싱크, 채널을 나열했습니다.

Flume 에이전트의 추가 구성 요소

위에서 논의한 것은 에이전트의 기본 구성 요소입니다. 이 외에도 데이터 생성기에서 중앙 집중식 저장소로 이벤트를 전송하는 데 중요한 역할을하는 몇 가지 구성 요소가 더 있습니다.

인터셉터

인터셉터는 소스와 채널간에 전송되는 수로 이벤트를 변경 / 검사하는 데 사용됩니다.

채널 선택기

여러 채널의 경우 데이터를 전송하도록 선택할 채널을 결정하는 데 사용됩니다. 채널 선택기에는 두 가지 유형이 있습니다.

  • Default channel selectors − 복제 채널 선택기라고도하며 각 채널의 모든 이벤트를 복제합니다.

  • Multiplexing channel selectors − 이벤트 헤더의 주소를 기반으로 이벤트를 보낼 채널을 결정합니다.

싱크 프로세서

선택한 싱크 그룹에서 특정 싱크를 호출하는 데 사용됩니다. 이는 채널의 여러 싱크에 걸쳐 싱크 또는 부하 분산 이벤트에 대한 장애 조치 경로를 만드는 데 사용됩니다.