Apache Flink-라이브러리
이 장에서는 Apache Flink의 다양한 라이브러리에 대해 알아 봅니다.
복잡한 이벤트 처리 (CEP)
FlinkCEP는 Apache Flink의 API로 연속 스트리밍 데이터의 이벤트 패턴을 분석합니다. 이러한 이벤트는 거의 실시간이며 처리량이 높고 지연 시간이 짧습니다. 이 API는 실시간으로 제공되고 처리하기가 매우 복잡한 센서 데이터에 주로 사용됩니다.
CEP는 입력 스트림의 패턴을 분석하고 결과를 곧 제공합니다. 이벤트 패턴이 복잡한 경우 실시간 알림 및 경고를 제공하는 기능이 있습니다. FlinkCEP는 다양한 종류의 입력 소스에 연결하여 그 안의 패턴을 분석 할 수 있습니다.
CEP를 사용한 샘플 아키텍처는 다음과 같습니다.
센서 데이터는 다양한 소스에서 들어오고 Kafka는 Apache Flink에 스트림을 배포하는 분산 메시징 프레임 워크 역할을하며 FlinkCEP는 복잡한 이벤트 패턴을 분석합니다.
Pattern API를 사용하여 복잡한 이벤트 처리를 위해 Apache Flink에서 프로그램을 작성할 수 있습니다. 연속 스트림 데이터에서 감지 할 이벤트 패턴을 결정할 수 있습니다. 다음은 가장 일반적으로 사용되는 CEP 패턴 중 일부입니다.
시작
시작 상태를 정의하는 데 사용됩니다. 다음 프로그램은 Flink 프로그램에서 어떻게 정의되는지 보여줍니다.
Pattern<Event, ?> next = start.next("next");
어디
현재 상태에서 필터 조건을 정의하는 데 사용됩니다.
patternState.where(new FilterFunction <Event>() {
@Override
public boolean filter(Event value) throws Exception {
}
});
다음
새 패턴 상태와 이전 패턴을 전달하는 데 필요한 일치 이벤트를 추가하는 데 사용됩니다.
Pattern<Event, ?> next = start.next("next");
FollowedBy
새 패턴 상태를 추가하는 데 사용되지만 여기서는 두 개의 일치하는 이벤트와 함께 다른 이벤트가 발생할 수 있습니다.
Pattern<Event, ?> followedBy = start.followedBy("next");
젤리
Apache Flink의 Graph API는 Gelly입니다. Gelly는 일련의 방법과 유틸리티를 사용하여 Flink 응용 프로그램에서 그래프 분석을 수행하는 데 사용됩니다. Gelly와 함께 분산 된 방식으로 Apache Flink API를 사용하여 거대한 그래프를 분석 할 수 있습니다. 동일한 목적으로 Apache Giraph와 같은 다른 그래프 라이브러리도 있지만 Gelly는 Apache Flink 위에 사용되기 때문에 단일 API를 사용합니다. 이것은 개발 및 운영 관점에서 매우 유용합니다.
Apache Flink API-Gelly를 사용하여 예제를 실행 해 보겠습니다.
먼저 Apache Flink의 opt 디렉토리에서 2 개의 Gelly jar 파일을 lib 디렉토리로 복사해야합니다. 그런 다음 flink-gelly-examples jar를 실행합니다.
cp opt/flink-gelly* lib/
./bin/flink run examples/gelly/flink-gelly-examples_*.jar
이제 PageRank 예제를 실행 해 보겠습니다.
PageRank는 인 엣지를 통해 전송 된 PageRank 점수의 합계 인 정점 별 점수를 계산합니다. 각 정점의 점수는 바깥 쪽 가장자리간에 균등하게 나뉩니다. 점수가 높은 정점은 점수가 높은 다른 정점과 연결됩니다.
결과에는 정점 ID와 PageRank 점수가 포함됩니다.
usage: flink run examples/flink-gelly-examples_<version>.jar --algorithm PageRank [algorithm options] --input <input> [input options] --output <output> [output options]
./bin/flink run examples/gelly/flink-gelly-examples_*.jar --algorithm PageRank --input CycleGraph --vertex_count 2 --output Print