Apache Tajo-소개

분산 데이터웨어 하우스 시스템

데이터웨어 하우스는 트랜잭션 처리보다는 쿼리 및 분석을 위해 설계된 관계형 데이터베이스입니다. 주제 지향적이고 통합 된 시변 비 휘발성 데이터 모음입니다. 이 데이터는 분석가가 조직에서 정보에 입각 한 결정을 내리는 데 도움이되지만 관계형 데이터 볼륨은 날로 증가합니다.

문제를 극복하기 위해 분산 데이터웨어 하우스 시스템은 OLAP (Online Analytical Processing) 목적으로 여러 데이터 저장소에서 데이터를 공유합니다. 각 데이터웨어 하우스는 하나 이상의 조직에 속할 수 있습니다. 로드 밸런싱 및 확장 성을 수행합니다. 메타 데이터는 복제되고 중앙에서 배포됩니다.

Apache Tajo는 HDFS (Hadoop Distributed File System)를 스토리지 계층으로 사용하고 MapReduce 프레임 워크 대신 자체 쿼리 실행 엔진을 가진 분산 데이터웨어 하우스 시스템입니다.

Hadoop의 SQL 개요

Hadoop은 분산 환경에서 빅 데이터를 저장하고 처리 할 수있는 오픈 소스 프레임 워크입니다. 매우 빠르고 강력합니다. 그러나 Hadoop은 쿼리 기능이 제한되어 있으므로 Hadoop의 SQL을 사용하여 성능을 더욱 향상시킬 수 있습니다. 이를 통해 사용자는 쉬운 SQL 명령을 통해 Hadoop과 상호 작용할 수 있습니다.

Hadoop 애플리케이션에서 SQL의 몇 가지 예는 Hive, Impala, Drill, Presto, Spark, HAWQ 및 Apache Tajo입니다.

Apache Tajo 란?

Apache Tajo는 관계형 및 분산 데이터 처리 프레임 워크입니다. 짧은 지연 시간과 확장 가능한 임시 쿼리 분석을 위해 설계되었습니다.

Tajo는 표준 SQL 및 다양한 데이터 형식을 지원합니다. 대부분의 Tajo 쿼리는 수정없이 실행할 수 있습니다.
타조는 fault-tolerance 실패한 작업에 대한 다시 시작 메커니즘과 확장 가능한 쿼리 재 작성 엔진을 통해
Tajo는 필요한 것을 수행합니다 ETL (Extract Transform and Load process)HDFS에 저장된 대규모 데이터 세트를 요약하는 작업. Hive / Pig의 대안입니다.

최신 버전의 Tajo는 Java 프로그램과 Oracle 및 PostGreSQL과 같은 타사 데이터베이스에 대한 연결성이 더 뛰어납니다.