Apache Tajo-테이블 관리

테이블은 하나의 데이터 소스에 대한 논리적보기입니다. 논리적 스키마, 파티션, URL 및 다양한 속성으로 구성됩니다. Tajo 테이블은 HDFS의 디렉토리, 단일 파일, 하나의 HBase 테이블 또는 RDBMS 테이블 일 수 있습니다.

Tajo는 다음 두 가지 유형의 테이블을 지원합니다.

  • 외부 테이블
  • 내부 테이블

외부 테이블

외부 테이블에는 테이블을 만들 때 위치 속성이 필요합니다. 예를 들어 데이터가 이미 Text / JSON 파일 또는 HBase 테이블로있는 경우 Tajo 외부 테이블로 등록 할 수 있습니다.

다음 쿼리는 외부 테이블 생성의 예입니다.

create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';

여기,

  • External keyword− 외부 테이블을 생성 할 때 사용합니다. 이렇게하면 지정된 위치에 테이블을 만드는 데 도움이됩니다.

  • 샘플은 테이블 이름을 나타냅니다.

  • Location− HDFS, Amazon S3, HBase 또는 로컬 파일 시스템 용 디렉토리입니다. 디렉토리에 대한 위치 속성을 할당하려면 아래 URI 예제를 사용하십시오.

    • HDFS − hdfs : // localhost : port / path / to / table

    • Amazon S3 − s3 : // bucket-name / table

    • local file system − file : /// path / to / table

    • Openstack Swift − swift : // bucket-name / table

테이블 속성

외부 테이블에는 다음과 같은 속성이 있습니다.

  • TimeZone − 사용자는 테이블을 읽거나 쓰기위한 시간대를 지정할 수 있습니다.

  • Compression format− 데이터 크기를 압축하는 데 사용됩니다. 예를 들어, text / json 파일은compression.codec 특성.

내부 테이블

내부 테이블은 Managed Table. 테이블 스페이스라고하는 사전 정의 된 물리적 위치에 생성됩니다.

통사론

create table table1(col1 int,col2 text);

기본적으로 Tajo는“conf / tajo-site.xml”에있는“tajo.warehouse.directory”를 사용합니다. 테이블의 새 위치를 지정하려면 테이블 스페이스 구성을 사용할 수 있습니다.

테이블 스페이스

테이블 스페이스는 스토리지 시스템의 위치를 ​​정의하는 데 사용됩니다. 내부 테이블에 대해서만 지원됩니다. 이름으로 테이블 스페이스에 액세스 할 수 있습니다. 각 테이블 스페이스는 서로 다른 스토리지 유형을 사용할 수 있습니다. 테이블 스페이스를 지정하지 않으면 Tajo는 루트 디렉토리의 기본 테이블 스페이스를 사용합니다.

테이블 스페이스 구성

당신은 “conf/tajo-site.xml.template”타조에서. 파일을 복사하고 다음으로 이름을 바꿉니다.“storagesite.json”. 이 파일은 테이블 스페이스에 대한 구성 역할을합니다. Tajo 데이터 형식은 다음 구성을 사용합니다-

HDFS 구성

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         "uri": “hdfs://localhost:9000/path/to/Tajo"  
      } 
   } 
}

HBase 구성

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         "uri": “hbase:zk://quorum1:port,quorum2:port/"  
      } 
   } 
}

텍스트 파일 구성

$ vi conf/storage-site.json { 
   "spaces": {  
      "${tablespace_name}": {  
         “uri”: “hdfs://localhost:9000/path/to/Tajo” 
      } 
   } 
}

테이블 스페이스 생성

Tajo의 내부 테이블 레코드는 다른 테이블에서만 액세스 할 수 있습니다. 테이블 스페이스로 구성 할 수 있습니다.

통사론

CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name] 
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]

여기,

  • IF NOT EXISTS − 동일한 테이블이 아직 생성되지 않은 경우 오류를 방지합니다.

  • TABLESPACE −이 절은 테이블 스페이스 이름을 지정하는 데 사용됩니다.

  • Storage type − Tajo 데이터는 text, JSON, HBase, Parquet, Sequencefile 및 ORC와 같은 형식을 지원합니다.

  • AS select statement − 다른 테이블에서 레코드를 선택합니다.

테이블 스페이스 구성

Hadoop 서비스를 시작하고 파일을 엽니 다. “conf/storage-site.json”, 다음 변경 사항을 추가하십시오-

$ vi conf/storage-site.json { 
   "spaces": {  
      “space1”: {  
         "uri": “hdfs://localhost:9000/path/to/Tajo" 
      } 
   } 
}

여기서 Tajo는 HDFS 위치의 데이터를 참조하고 space1테이블 스페이스 이름입니다. Hadoop 서비스를 시작하지 않으면 테이블 스페이스를 등록 할 수 없습니다.

질문

default> create table table1(num1 int,num2 text,num3 float) tablespace space1;

위의 쿼리는“table1”이라는 테이블을 생성하고“space1”은 테이블 스페이스 이름을 나타냅니다.

데이터 형식

Tajo는 데이터 형식을 지원합니다. 각 형식을 하나씩 자세히 살펴 보겠습니다.

본문

문자로 구분 된 값의 일반 텍스트 파일은 행과 열로 구성된 테이블 형식 데이터 세트를 나타냅니다. 각 행은 일반 텍스트 행입니다.

테이블 생성

default> create external table customer(id int,name text,address text,age int) 
   using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;

여기, “customers.csv” file은 Tajo 설치 디렉토리에있는 쉼표로 구분 된 값 파일을 나타냅니다.

텍스트 형식을 사용하여 내부 테이블을 생성하려면 다음 쿼리를 사용하십시오.

default> create table customer(id int,name text,address text,age int) using text;

위의 질의에서는 테이블 스페이스를 할당하지 않았으므로 Tajo의 기본 테이블 스페이스를 사용합니다.

속성

텍스트 파일 형식에는 다음과 같은 속성이 있습니다.

  • text.delimiter− 이것은 구분 문자입니다. 기본값은 '|'입니다.

  • compression.codec− 이것은 압축 형식입니다. 기본적으로 비활성화되어 있습니다. 지정된 알고리즘을 사용하여 설정을 변경할 수 있습니다.

  • timezone − 읽기 또는 쓰기에 사용되는 테이블.

  • text.error-tolerance.max-num − 최대 허용 오차 수준 수.

  • text.skip.headerlines − 건너 뛴 헤더 행 수.

  • text.serde − 이것은 직렬화 속성입니다.

JSON

Apache Tajo는 데이터 쿼리를 위해 JSON 형식을 지원합니다. Tajo는 JSON 객체를 SQL 레코드로 취급합니다. 하나의 개체는 Tajo 테이블의 한 행과 같습니다. 다음과 같이 "array.json"을 고려해 봅시다.

$ hdfs dfs -cat /json/array.json { 
   "num1" : 10, 
   "num2" : "simple json array", 
   "num3" : 50.5 
}

이 파일을 생성 한 후 Tajo 셸로 전환하고 다음 쿼리를 입력하여 JSON 형식을 사용하여 테이블을 생성합니다.

질문

default> create external table sample (num1 int,num2 text,num3 float) 
   using json location ‘json/array.json’;

파일 데이터는 테이블 스키마와 일치해야한다는 점을 항상 기억하십시오. 그렇지 않으면 열 이름을 생략하고 열 목록이 필요하지 않은 *를 사용할 수 있습니다.

내부 테이블을 생성하려면 다음 쿼리를 사용하십시오.

default> create table sample (num1 int,num2 text,num3 float) using json;

쪽매 세공

Parquet는 열 저장 형식입니다. Tajo는 쉽고 빠르고 효율적인 액세스를 위해 Parquet 형식을 사용합니다.

테이블 생성

다음 쿼리는 테이블 생성의 예입니다-

CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;

Parquet 파일 형식에는 다음과 같은 속성이 있습니다.

  • parquet.block.size − 메모리에 버퍼링되는 행 그룹의 크기.

  • parquet.page.size − 페이지 크기는 압축 용입니다.

  • parquet.compression − 페이지를 압축하는 데 사용되는 압축 알고리즘.

  • parquet.enable.dictionary − 부울 값은 사전 인코딩을 활성화 / 비활성화하는 것입니다.

RCFile

RCFile은 레코드 컬럼 파일입니다. 이진 키 / 값 쌍으로 구성됩니다.

테이블 생성

다음 쿼리는 테이블 생성의 예입니다-

CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;

RCFile에는 다음과 같은 속성이 있습니다.

  • rcfile.serde − 커스텀 디시리얼라이저 클래스.

  • compression.codec − 압축 알고리즘.

  • rcfile.null − NULL 문자.

SequenceFile

SequenceFile은 키 / 값 쌍으로 구성된 Hadoop의 기본 파일 형식입니다.

테이블 생성

다음 쿼리는 테이블 생성의 예입니다-

CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;

이 시퀀스 파일은 Hive와 호환됩니다. 이것은 Hive에서 다음과 같이 작성할 수 있습니다.

CREATE TABLE table1 (id int, name string, score float, type string) 
STORED AS sequencefile;

ORC

ORC (Optimized Row Columnar)는 Hive의 열 저장 형식입니다.

테이블 생성

다음 쿼리는 테이블 생성의 예입니다-

CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;

ORC 형식에는 다음과 같은 속성이 있습니다.

  • orc.max.merge.distance − ORC 파일을 읽고 거리가 멀어지면 병합합니다.

  • orc.stripe.size − 이것은 각 스트라이프의 크기입니다.

  • orc.buffer.size − 기본값은 256KB입니다.

  • orc.rowindex.stride − 이것은 행 수의 ORC 인덱스 보폭입니다.