Apache Tajo-소개
분산 데이터웨어 하우스 시스템
데이터웨어 하우스는 트랜잭션 처리보다는 쿼리 및 분석을 위해 설계된 관계형 데이터베이스입니다. 주제 지향적이고 통합 된 시변 비 휘발성 데이터 모음입니다. 이 데이터는 분석가가 조직에서 정보에 입각 한 결정을 내리는 데 도움이되지만 관계형 데이터 볼륨은 날로 증가합니다.
문제를 극복하기 위해 분산 데이터웨어 하우스 시스템은 OLAP (Online Analytical Processing) 목적으로 여러 데이터 저장소에서 데이터를 공유합니다. 각 데이터웨어 하우스는 하나 이상의 조직에 속할 수 있습니다. 로드 밸런싱 및 확장 성을 수행합니다. 메타 데이터는 복제되고 중앙에서 배포됩니다.
Apache Tajo는 HDFS (Hadoop Distributed File System)를 스토리지 계층으로 사용하고 MapReduce 프레임 워크 대신 자체 쿼리 실행 엔진을 가진 분산 데이터웨어 하우스 시스템입니다.
Hadoop의 SQL 개요
Hadoop은 분산 환경에서 빅 데이터를 저장하고 처리 할 수있는 오픈 소스 프레임 워크입니다. 매우 빠르고 강력합니다. 그러나 Hadoop은 쿼리 기능이 제한되어 있으므로 Hadoop의 SQL을 사용하여 성능을 더욱 향상시킬 수 있습니다. 이를 통해 사용자는 쉬운 SQL 명령을 통해 Hadoop과 상호 작용할 수 있습니다.
Hadoop 애플리케이션에서 SQL의 몇 가지 예는 Hive, Impala, Drill, Presto, Spark, HAWQ 및 Apache Tajo입니다.
Apache Tajo 란?
Apache Tajo는 관계형 및 분산 데이터 처리 프레임 워크입니다. 짧은 지연 시간과 확장 가능한 임시 쿼리 분석을 위해 설계되었습니다.
Tajo는 표준 SQL 및 다양한 데이터 형식을 지원합니다. 대부분의 Tajo 쿼리는 수정없이 실행할 수 있습니다.
타조는 fault-tolerance 실패한 작업에 대한 다시 시작 메커니즘과 확장 가능한 쿼리 재 작성 엔진을 통해
Tajo는 필요한 것을 수행합니다 ETL (Extract Transform and Load process)HDFS에 저장된 대규모 데이터 세트를 요약하는 작업. Hive / Pig의 대안입니다.
최신 버전의 Tajo는 Java 프로그램과 Oracle 및 PostGreSQL과 같은 타사 데이터베이스에 대한 연결성이 더 뛰어납니다.
Apache Tajo의 기능
Apache Tajo에는 다음과 같은 기능이 있습니다.
- 뛰어난 확장 성 및 최적화 된 성능
- 짧은 대기 시간
- 사용자 정의 함수
- 행 / 열 저장 처리 프레임 워크.
- HiveQL 및 Hive MetaStore와의 호환성
- 간단한 데이터 흐름과 쉬운 유지 관리.
Apache Tajo의 이점
Apache Tajo는 다음과 같은 이점을 제공합니다.
- 사용하기 쉬운
- 단순화 된 아키텍처
- 비용 기반 쿼리 최적화
- 벡터화 된 쿼리 실행 계획
- 빠른 배달
- 간단한 I / O 메커니즘과 다양한 유형의 스토리지를 지원합니다.
- 결함 허용
Apache Tajo의 사용 사례
다음은 Apache Tajo의 사용 사례 중 일부입니다-
데이터웨어 하우징 및 분석
한국의 SK 텔레콤 회사는 1.7 테라 바이트에 달하는 데이터에 대해 Tajo를 실행 한 결과 Hive 나 Impala보다 빠른 속도로 쿼리를 완료 할 수 있음을 발견했습니다.
데이터 발견
한국 음악 스트리밍 서비스 멜론은 분석 처리를 위해 타조를 사용합니다. Tajo는 ETL (추출-변환-로드 프로세스) 작업을 Hive보다 1.5 ~ 10 배 빠르게 실행합니다.
로그 분석
한국에 기반을 둔 Bluehole Studio는 판타지 멀티 플레이어 온라인 게임 인 TERA를 개발했습니다. 이 회사는 게임 로그 분석 및 서비스 품질 중단의 주요 원인을 찾기 위해 Tajo를 사용합니다.
저장 및 데이터 형식
Apache Tajo는 다음 데이터 형식을 지원합니다.
- JSON
- 텍스트 파일 (CSV)
- Parquet
- 시퀀스 파일
- AVRO
- 프로토콜 버퍼
- Apache Orc
Tajo는 다음 저장 형식을 지원합니다-
- HDFS
- JDBC
- Amazon S3
- Apache HBase
- Elasticsearch