Apache Presto-아키텍처
Presto의 아키텍처는 기존 MPP (대량 병렬 처리) DBMS 아키텍처와 거의 유사합니다. 다음 다이어그램은 Presto의 아키텍처를 보여줍니다.
위의 다이어그램은 서로 다른 구성 요소로 구성됩니다. 다음 표에서는 각 구성 요소에 대해 자세히 설명합니다.
S. 아니 | 구성 요소 및 설명 |
---|---|
1. | Client 클라이언트 (Presto CLI)는 결과를 얻기 위해 코디네이터에게 SQL 문을 제출합니다. |
2. | Coordinator 코디네이터는 마스터 데몬입니다. 코디네이터는 처음에 SQL 쿼리를 구문 분석 한 다음 쿼리 실행을 분석하고 계획합니다. 스케줄러는 파이프 라인 실행을 수행하고 작업을 가장 가까운 노드에 할당하고 진행 상황을 모니터링합니다. |
삼. | Connector 스토리지 플러그인을 커넥터라고합니다. Hive, HBase, MySQL, Cassandra 등이 커넥터 역할을합니다. 그렇지 않으면 사용자 정의를 구현할 수도 있습니다. 커넥터는 쿼리에 대한 메타 데이터 및 데이터를 제공합니다. 코디네이터는 커넥터를 사용하여 쿼리 계획을 작성하기위한 메타 데이터를 가져옵니다. |
4. | Worker 코디네이터는 작업자 노드에 작업을 할당합니다. 작업자는 커넥터에서 실제 데이터를 가져옵니다. 마지막으로 작업자 노드는 결과를 클라이언트에 전달합니다. |
Presto-워크 플로
Presto는 노드 클러스터에서 실행되는 분산 시스템입니다. Presto의 분산 쿼리 엔진은 대화 형 분석에 최적화되어 있으며 복잡한 쿼리, 집계, 조인 및 창 함수를 포함한 표준 ANSI SQL을 지원합니다. Presto 아키텍처는 간단하고 확장 가능합니다. Presto 클라이언트 (CLI)는 SQL 문을 마스터 데몬 코디네이터에 제출합니다.
스케줄러는 실행 파이프 라인을 통해 연결됩니다. 스케줄러는 데이터에 가장 가까운 노드에 작업을 할당하고 진행 상황을 모니터링합니다. 코디네이터는 작업을 여러 작업자 노드에 할당하고 마지막으로 작업자 노드는 결과를 클라이언트에 다시 전달합니다. 클라이언트는 출력 프로세스에서 데이터를 가져옵니다. 확장 성이 핵심 디자인입니다. Hive, HBase, MySQL 등과 같은 플러그 형 커넥터는 쿼리에 대한 메타 데이터 및 데이터를 제공합니다. Presto는 이러한 다양한 종류의 데이터 소스에 대해 SQL 쿼리 기능을 쉽게 제공 할 수있는 "간단한 스토리지 추상화"로 설계되었습니다.
실행 모델
Presto는 SQL 의미 체계를 지원하도록 설계된 연산자로 사용자 지정 쿼리 및 실행 엔진을 지원합니다. 향상된 스케줄링 외에도 모든 처리가 메모리에 있으며 서로 다른 단계 사이에서 네트워크를 통해 파이프 라인됩니다. 이렇게하면 불필요한 I / O 대기 시간 오버 헤드가 방지됩니다.