Apache Storm-소개
Apache Storm이란 무엇입니까?
Apache Storm은 분산 된 실시간 빅 데이터 처리 시스템입니다. Storm은 내결함성 및 수평 확장 가능한 방법으로 방대한 양의 데이터를 처리하도록 설계되었습니다. 가장 높은 수집 속도 기능을 가진 스트리밍 데이터 프레임 워크입니다. Storm은 상태 비 저장이지만 Apache ZooKeeper를 통해 분산 환경 및 클러스터 상태를 관리합니다. 간단하고 실시간 데이터에 대한 모든 종류의 조작을 병렬로 실행할 수 있습니다.
Apache Storm은 지속적으로 실시간 데이터 분석의 선두 주자입니다. Storm은 설정 및 작동이 쉽고 모든 메시지가 토폴로지를 통해 적어도 한 번 처리되도록 보장합니다.
Apache Storm과 Hadoop
기본적으로 Hadoop 및 Storm 프레임 워크는 빅 데이터 분석에 사용됩니다. 둘 다 서로를 보완하고 일부 측면에서 다릅니다. Apache Storm은 지속성을 제외한 모든 작업을 수행하는 반면 Hadoop은 모든 작업에 능숙하지만 실시간 계산이 지연됩니다. 다음 표는 Storm과 Hadoop의 속성을 비교합니다.
폭풍 | 하둡 |
---|---|
실시간 스트림 처리 | 일괄 처리 |
무국적 | 상태 저장 |
ZooKeeper 기반 조정 기능이있는 마스터 / 슬레이브 아키텍처. 마스터 노드는 다음과 같이 호출됩니다.nimbus 그리고 노예는 supervisors. | ZooKeeper 기반 조정이 있거나없는 마스터-슬레이브 아키텍처. 마스터 노드는job tracker 슬레이브 노드는 task tracker. |
Storm 스트리밍 프로세스는 클러스터에서 초당 수만 개의 메시지에 액세스 할 수 있습니다. | HDFS (Hadoop Distributed File System)는 MapReduce 프레임 워크를 사용하여 몇 분 또는 몇 시간이 걸리는 방대한 양의 데이터를 처리합니다. |
Storm 토폴로지는 사용자가 종료하거나 예기치 않은 복구 불가능한 오류가 발생할 때까지 실행됩니다. | MapReduce 작업은 순차적으로 실행되고 결국 완료됩니다. |
Both are distributed and fault-tolerant | |
nimbus / supervisor가 죽으면 다시 시작하면 중지 된 위치에서 계속 진행되므로 아무런 영향을받지 않습니다. | JobTracker가 종료되면 실행중인 모든 작업이 손실됩니다. |
Apache Storm의 사용 사례
Apache Storm은 실시간 빅 데이터 스트림 처리로 매우 유명합니다. 이러한 이유로 대부분의 회사는 시스템의 필수 부분으로 Storm을 사용하고 있습니다. 몇 가지 주목할만한 예는 다음과 같습니다.
Twitter− Twitter는 다양한 "Publisher Analytics 제품"에 Apache Storm을 사용하고 있습니다. "게시자 분석 제품"은 Twitter 플랫폼에서 모든 트윗과 클릭을 처리합니다. Apache Storm은 Twitter 인프라와 긴밀하게 통합됩니다.
NaviSite− NaviSite는 이벤트 로그 모니터링 / 감사 시스템에 Storm을 사용하고 있습니다. 시스템에서 생성 된 모든 로그는 Storm을 통과합니다. Storm은 구성된 정규식 집합에 대해 메시지를 확인하고 일치하는 항목이 있으면 해당 특정 메시지가 데이터베이스에 저장됩니다.
Wego− Wego는 싱가포르에 위치한 여행 메타 검색 엔진입니다. 여행 관련 데이터는 시간이 다른 전 세계 여러 출처에서 제공됩니다. Storm은 Wego가 실시간 데이터를 검색하고 동시성 문제를 해결하며 최종 사용자에게 가장 적합한 것을 찾을 수 있도록 도와줍니다.
Apache Storm의 이점
다음은 Apache Storm이 제공하는 이점 목록입니다.
Storm은 오픈 소스이며 강력하며 사용자 친화적입니다. 대기업뿐만 아니라 중소기업에서도 활용할 수 있습니다.
Storm은 내결함성, 유연성, 안정성 및 모든 프로그래밍 언어를 지원합니다.
실시간 스트림 처리를 허용합니다.
Storm은 엄청난 데이터 처리 능력을 가지고 있기 때문에 믿을 수 없을 정도로 빠릅니다.
Storm은 리소스를 선형으로 추가하여 부하가 증가하더라도 성능을 유지할 수 있습니다. 확장 성이 뛰어납니다.
Storm은 데이터 새로 고침을 수행하고 문제에 따라 몇 초 또는 몇 분 안에 종단 간 전달 응답을 수행합니다. 대기 시간이 매우 짧습니다.
Storm에는 운영 인텔리전스가 있습니다.
Storm은 클러스터의 연결된 노드가 죽거나 메시지가 손실 된 경우에도 보장 된 데이터 처리를 제공합니다.