Apache Tajo-테이블 관리
테이블은 하나의 데이터 소스에 대한 논리적보기입니다. 논리적 스키마, 파티션, URL 및 다양한 속성으로 구성됩니다. Tajo 테이블은 HDFS의 디렉토리, 단일 파일, 하나의 HBase 테이블 또는 RDBMS 테이블 일 수 있습니다.
Tajo는 다음 두 가지 유형의 테이블을 지원합니다.
- 외부 테이블
- 내부 테이블
외부 테이블
외부 테이블에는 테이블을 만들 때 위치 속성이 필요합니다. 예를 들어 데이터가 이미 Text / JSON 파일 또는 HBase 테이블로있는 경우 Tajo 외부 테이블로 등록 할 수 있습니다.
다음 쿼리는 외부 테이블 생성의 예입니다.
create external table sample(col1 int,col2 text,col3 int) location ‘hdfs://path/to/table';
여기,
External keyword− 외부 테이블을 생성 할 때 사용합니다. 이렇게하면 지정된 위치에 테이블을 만드는 데 도움이됩니다.
샘플은 테이블 이름을 나타냅니다.
Location− HDFS, Amazon S3, HBase 또는 로컬 파일 시스템 용 디렉토리입니다. 디렉토리에 대한 위치 속성을 할당하려면 아래 URI 예제를 사용하십시오.
HDFS − hdfs : // localhost : port / path / to / table
Amazon S3 − s3 : // bucket-name / table
local file system − file : /// path / to / table
Openstack Swift − swift : // bucket-name / table
테이블 속성
외부 테이블에는 다음과 같은 속성이 있습니다.
TimeZone − 사용자는 테이블을 읽거나 쓰기위한 시간대를 지정할 수 있습니다.
Compression format− 데이터 크기를 압축하는 데 사용됩니다. 예를 들어, text / json 파일은compression.codec 특성.
내부 테이블
내부 테이블은 Managed Table. 테이블 스페이스라고하는 사전 정의 된 물리적 위치에 생성됩니다.
통사론
create table table1(col1 int,col2 text);
기본적으로 Tajo는“conf / tajo-site.xml”에있는“tajo.warehouse.directory”를 사용합니다. 테이블의 새 위치를 지정하려면 테이블 스페이스 구성을 사용할 수 있습니다.
테이블 스페이스
테이블 스페이스는 스토리지 시스템의 위치를 정의하는 데 사용됩니다. 내부 테이블에 대해서만 지원됩니다. 이름으로 테이블 스페이스에 액세스 할 수 있습니다. 각 테이블 스페이스는 서로 다른 스토리지 유형을 사용할 수 있습니다. 테이블 스페이스를 지정하지 않으면 Tajo는 루트 디렉토리의 기본 테이블 스페이스를 사용합니다.
테이블 스페이스 구성
당신은 “conf/tajo-site.xml.template”타조에서. 파일을 복사하고 다음으로 이름을 바꿉니다.“storagesite.json”. 이 파일은 테이블 스페이스에 대한 구성 역할을합니다. Tajo 데이터 형식은 다음 구성을 사용합니다-
HDFS 구성
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
HBase 구성
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
"uri": “hbase:zk://quorum1:port,quorum2:port/"
}
}
}
텍스트 파일 구성
$ vi conf/storage-site.json {
"spaces": {
"${tablespace_name}": {
“uri”: “hdfs://localhost:9000/path/to/Tajo”
}
}
}
테이블 스페이스 생성
Tajo의 내부 테이블 레코드는 다른 테이블에서만 액세스 할 수 있습니다. 테이블 스페이스로 구성 할 수 있습니다.
통사론
CREATE TABLE [IF NOT EXISTS] <table_name> [(column_list)] [TABLESPACE tablespace_name]
[using <storage_type> [with (<key> = <value>, ...)]] [AS <select_statement>]
여기,
IF NOT EXISTS − 동일한 테이블이 아직 생성되지 않은 경우 오류를 방지합니다.
TABLESPACE −이 절은 테이블 스페이스 이름을 지정하는 데 사용됩니다.
Storage type − Tajo 데이터는 text, JSON, HBase, Parquet, Sequencefile 및 ORC와 같은 형식을 지원합니다.
AS select statement − 다른 테이블에서 레코드를 선택합니다.
테이블 스페이스 구성
Hadoop 서비스를 시작하고 파일을 엽니 다. “conf/storage-site.json”, 다음 변경 사항을 추가하십시오-
$ vi conf/storage-site.json {
"spaces": {
“space1”: {
"uri": “hdfs://localhost:9000/path/to/Tajo"
}
}
}
여기서 Tajo는 HDFS 위치의 데이터를 참조하고 space1테이블 스페이스 이름입니다. Hadoop 서비스를 시작하지 않으면 테이블 스페이스를 등록 할 수 없습니다.
질문
default> create table table1(num1 int,num2 text,num3 float) tablespace space1;
위의 쿼리는“table1”이라는 테이블을 생성하고“space1”은 테이블 스페이스 이름을 나타냅니다.
데이터 형식
Tajo는 데이터 형식을 지원합니다. 각 형식을 하나씩 자세히 살펴 보겠습니다.
본문
문자로 구분 된 값의 일반 텍스트 파일은 행과 열로 구성된 테이블 형식 데이터 세트를 나타냅니다. 각 행은 일반 텍스트 행입니다.
테이블 생성
default> create external table customer(id int,name text,address text,age int)
using text with('text.delimiter'=',') location ‘file:/Users/workspace/Tajo/customers.csv’;
여기, “customers.csv” file은 Tajo 설치 디렉토리에있는 쉼표로 구분 된 값 파일을 나타냅니다.
텍스트 형식을 사용하여 내부 테이블을 생성하려면 다음 쿼리를 사용하십시오.
default> create table customer(id int,name text,address text,age int) using text;
위의 질의에서는 테이블 스페이스를 할당하지 않았으므로 Tajo의 기본 테이블 스페이스를 사용합니다.
속성
텍스트 파일 형식에는 다음과 같은 속성이 있습니다.
text.delimiter− 이것은 구분 문자입니다. 기본값은 '|'입니다.
compression.codec− 이것은 압축 형식입니다. 기본적으로 비활성화되어 있습니다. 지정된 알고리즘을 사용하여 설정을 변경할 수 있습니다.
timezone − 읽기 또는 쓰기에 사용되는 테이블.
text.error-tolerance.max-num − 최대 허용 오차 수준 수.
text.skip.headerlines − 건너 뛴 헤더 행 수.
text.serde − 이것은 직렬화 속성입니다.
JSON
Apache Tajo는 데이터 쿼리를 위해 JSON 형식을 지원합니다. Tajo는 JSON 객체를 SQL 레코드로 취급합니다. 하나의 개체는 Tajo 테이블의 한 행과 같습니다. 다음과 같이 "array.json"을 고려해 봅시다.
$ hdfs dfs -cat /json/array.json {
"num1" : 10,
"num2" : "simple json array",
"num3" : 50.5
}
이 파일을 생성 한 후 Tajo 셸로 전환하고 다음 쿼리를 입력하여 JSON 형식을 사용하여 테이블을 생성합니다.
질문
default> create external table sample (num1 int,num2 text,num3 float)
using json location ‘json/array.json’;
파일 데이터는 테이블 스키마와 일치해야한다는 점을 항상 기억하십시오. 그렇지 않으면 열 이름을 생략하고 열 목록이 필요하지 않은 *를 사용할 수 있습니다.
내부 테이블을 생성하려면 다음 쿼리를 사용하십시오.
default> create table sample (num1 int,num2 text,num3 float) using json;
쪽매 세공
Parquet는 열 저장 형식입니다. Tajo는 쉽고 빠르고 효율적인 액세스를 위해 Parquet 형식을 사용합니다.
테이블 생성
다음 쿼리는 테이블 생성의 예입니다-
CREATE TABLE parquet (num1 int,num2 text,num3 float) USING PARQUET;
Parquet 파일 형식에는 다음과 같은 속성이 있습니다.
parquet.block.size − 메모리에 버퍼링되는 행 그룹의 크기.
parquet.page.size − 페이지 크기는 압축 용입니다.
parquet.compression − 페이지를 압축하는 데 사용되는 압축 알고리즘.
parquet.enable.dictionary − 부울 값은 사전 인코딩을 활성화 / 비활성화하는 것입니다.
RCFile
RCFile은 레코드 컬럼 파일입니다. 이진 키 / 값 쌍으로 구성됩니다.
테이블 생성
다음 쿼리는 테이블 생성의 예입니다-
CREATE TABLE Record(num1 int,num2 text,num3 float) USING RCFILE;
RCFile에는 다음과 같은 속성이 있습니다.
rcfile.serde − 커스텀 디시리얼라이저 클래스.
compression.codec − 압축 알고리즘.
rcfile.null − NULL 문자.
SequenceFile
SequenceFile은 키 / 값 쌍으로 구성된 Hadoop의 기본 파일 형식입니다.
테이블 생성
다음 쿼리는 테이블 생성의 예입니다-
CREATE TABLE seq(num1 int,num2 text,num3 float) USING sequencefile;
이 시퀀스 파일은 Hive와 호환됩니다. 이것은 Hive에서 다음과 같이 작성할 수 있습니다.
CREATE TABLE table1 (id int, name string, score float, type string)
STORED AS sequencefile;
ORC
ORC (Optimized Row Columnar)는 Hive의 열 저장 형식입니다.
테이블 생성
다음 쿼리는 테이블 생성의 예입니다-
CREATE TABLE optimized(num1 int,num2 text,num3 float) USING ORC;
ORC 형식에는 다음과 같은 속성이 있습니다.
orc.max.merge.distance − ORC 파일을 읽고 거리가 멀어지면 병합합니다.
orc.stripe.size − 이것은 각 스트라이프의 크기입니다.
orc.buffer.size − 기본값은 256KB입니다.
orc.rowindex.stride − 이것은 행 수의 ORC 인덱스 보폭입니다.