Apache Presto-빠른 가이드
데이터 분석은 더 나은 의사 결정을 위해 관련 정보를 수집하기 위해 원시 데이터를 분석하는 프로세스입니다. 주로 많은 조직에서 비즈니스 결정을 내리는 데 사용됩니다. 음, 빅 데이터 분석에는 많은 양의 데이터가 포함되며이 프로세스는 매우 복잡하므로 회사는 다른 전략을 사용합니다.
예를 들어, Facebook은 세계 최고의 데이터 기반 및 최대 데이터웨어 하우스 회사 중 하나입니다. Facebook웨어 하우스 데이터는 대규모 계산을 위해 Hadoop에 저장됩니다. 나중에웨어 하우스 데이터가 페타 바이트로 증가하자 지연 시간이 짧은 새로운 시스템을 개발하기로 결정했습니다. 2012 년에 Facebook 팀원들은“Presto” 페타 바이트의 데이터로도 빠르게 작동하는 대화 형 쿼리 분석 용
Apache Presto 란 무엇입니까?
Apache Presto는 낮은 지연 시간과 대화 형 쿼리 분석에 최적화 된 분산 병렬 쿼리 실행 엔진입니다. Presto는 쿼리를 쉽게 실행하고 기가 바이트에서 페타 바이트까지 다운 타임없이 확장됩니다.
단일 Presto 쿼리는 HDFS, MySQL, Cassandra, Hive 및 더 많은 데이터 소스와 같은 여러 소스의 데이터를 처리 할 수 있습니다. Presto는 Java로 구축되었으며 다른 데이터 인프라 구성 요소와 쉽게 통합됩니다. Presto는 강력하며 Airbnb, DropBox, Groupon, Netflix와 같은 선도 기업이이를 채택하고 있습니다.
Presto-특징
Presto에는 다음과 같은 기능이 있습니다.
- 간단하고 확장 가능한 아키텍처.
- 플러그 형 커넥터-Presto는 쿼리에 대한 메타 데이터 및 데이터를 제공하는 플러그 형 커넥터를 지원합니다.
- 파이프 라인 실행-불필요한 I / O 대기 시간 오버 헤드를 방지합니다.
- 사용자 정의 함수-분석가는 사용자 정의 사용자 정의 함수를 생성하여 쉽게 마이그레이션 할 수 있습니다.
- 벡터화 된 열 처리.
Presto-장점
다음은 Apache Presto가 제공하는 이점 목록입니다.
- 전문 SQL 작업
- 간편한 설치 및 디버그
- 간단한 저장소 추상화
- 짧은 지연 시간으로 페타 바이트 데이터를 빠르게 확장
Presto − 애플리케이션
Presto는 오늘날 최고의 산업용 애플리케이션 대부분을 지원합니다. 몇 가지 주목할만한 애플리케이션을 살펴 보겠습니다.
Facebook− Facebook은 데이터 분석 요구를 위해 Presto를 구축했습니다. Presto는 대용량 데이터를 쉽게 확장합니다.
Teradata− Teradata는 빅 데이터 분석 및 데이터웨어 하우징에서 엔드 투 엔드 솔루션을 제공합니다. Presto에 대한 Teradata의 기여 덕분에 더 많은 기업이 모든 분석 요구 사항을 쉽게 지원할 수 있습니다.
Airbnb− Presto는 Airbnb 데이터 인프라의 필수적인 부분입니다. 수백 명의 직원이 매일이 기술을 사용하여 쿼리를 실행하고 있습니다.
왜 Presto인가?
Presto는 표준 ANSI SQL을 지원하므로 데이터 분석가와 개발자가 매우 쉽게 사용할 수 있습니다. Java로 빌드되었지만 메모리 할당 및 가비지 수집과 관련된 Java 코드의 일반적인 문제를 방지합니다. Presto는 Hadoop 친화적 인 커넥터 아키텍처를 가지고 있습니다. 파일 시스템을 쉽게 연결할 수 있습니다.
Presto는 여러 Hadoop 배포에서 실행됩니다. 또한 Presto는 Hadoop 플랫폼에서 연결하여 Cassandra, 관계형 데이터베이스 또는 기타 데이터 저장소를 쿼리 할 수 있습니다. 이 교차 플랫폼 분석 기능을 통해 Presto 사용자는 최대 비즈니스 가치를 기가 바이트에서 페타 바이트의 데이터로 추출 할 수 있습니다.
Presto의 아키텍처는 기존 MPP (대량 병렬 처리) DBMS 아키텍처와 거의 유사합니다. 다음 다이어그램은 Presto의 아키텍처를 보여줍니다.
위의 다이어그램은 서로 다른 구성 요소로 구성됩니다. 다음 표에서는 각 구성 요소에 대해 자세히 설명합니다.
S. 아니 | 구성 요소 및 설명 |
---|---|
1. | Client 클라이언트 (Presto CLI)는 결과를 얻기 위해 코디네이터에게 SQL 문을 제출합니다. |
2. | Coordinator 코디네이터는 마스터 데몬입니다. 코디네이터는 처음에 SQL 쿼리를 구문 분석 한 다음 쿼리 실행을 분석하고 계획합니다. 스케줄러는 파이프 라인 실행을 수행하고 작업을 가장 가까운 노드에 할당하고 진행 상황을 모니터링합니다. |
삼. | Connector 스토리지 플러그인을 커넥터라고합니다. Hive, HBase, MySQL, Cassandra 등이 커넥터 역할을합니다. 그렇지 않으면 사용자 정의를 구현할 수도 있습니다. 커넥터는 쿼리에 대한 메타 데이터 및 데이터를 제공합니다. 코디네이터는 커넥터를 사용하여 쿼리 계획을 작성하기위한 메타 데이터를 가져옵니다. |
4. | Worker 코디네이터는 작업자 노드에 작업을 할당합니다. 작업자는 커넥터에서 실제 데이터를 가져옵니다. 마지막으로 작업자 노드는 결과를 클라이언트에 전달합니다. |
Presto-워크 플로
Presto는 노드 클러스터에서 실행되는 분산 시스템입니다. Presto의 분산 쿼리 엔진은 대화 형 분석에 최적화되어 있으며 복잡한 쿼리, 집계, 조인 및 창 함수를 포함한 표준 ANSI SQL을 지원합니다. Presto 아키텍처는 간단하고 확장 가능합니다. Presto 클라이언트 (CLI)는 SQL 문을 마스터 데몬 코디네이터에 제출합니다.
스케줄러는 실행 파이프 라인을 통해 연결됩니다. 스케줄러는 데이터에 가장 가까운 노드에 작업을 할당하고 진행 상황을 모니터링합니다. 코디네이터는 작업을 여러 작업자 노드에 할당하고 마지막으로 작업자 노드는 결과를 클라이언트에 다시 전달합니다. 클라이언트는 출력 프로세스에서 데이터를 가져옵니다. 확장 성이 핵심 디자인입니다. Hive, HBase, MySQL 등과 같은 플러그 형 커넥터는 쿼리를위한 메타 데이터 및 데이터를 제공합니다. Presto는 이러한 다양한 종류의 데이터 소스에 대해 SQL 쿼리 기능을 쉽게 제공 할 수있는 "간단한 스토리지 추상화"로 설계되었습니다.
실행 모델
Presto는 SQL 의미 체계를 지원하도록 설계된 연산자로 사용자 지정 쿼리 및 실행 엔진을 지원합니다. 향상된 스케줄링 외에도 모든 처리가 메모리에 있으며 서로 다른 단계 사이에서 네트워크를 통해 파이프 라인됩니다. 이렇게하면 불필요한 I / O 대기 시간 오버 헤드가 방지됩니다.
이 장에서는 컴퓨터에 Presto를 설치하는 방법을 설명합니다. Presto의 기본 요구 사항을 살펴 보겠습니다.
- Linux 또는 Mac OS
- 자바 버전 8
이제 다음 단계를 계속하여 컴퓨터에 Presto를 설치해 보겠습니다.
Java 설치 확인
지금 당장 시스템에 Java 버전 8을 이미 설치 했으므로 다음 명령을 사용하여 확인하면됩니다.
$ java -version
시스템에 Java가 성공적으로 설치되면 설치된 Java의 버전을 볼 수 있습니다. Java가 설치되지 않은 경우 후속 단계에 따라 시스템에 Java 8을 설치하십시오.
JDK를 다운로드하십시오. 다음 링크를 방문하여 최신 버전의 JDK를 다운로드하십시오.
http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
최신 버전은 JDK 8u 92이고 파일은 "jdk-8u92-linux-x64.tar.gz"입니다. 컴퓨터에 파일을 다운로드하십시오.
그 후 파일을 추출하고 특정 디렉토리로 이동하십시오.
그런 다음 Java 대안을 설정하십시오. 마지막으로 Java가 컴퓨터에 설치됩니다.
Apache Presto 설치
다음 링크를 방문하여 최신 버전의 Presto를 다운로드하십시오.
https://repo1.maven.org/maven2/com/facebook/presto/presto-server/0.149/
이제 "presto-server-0.149.tar.gz"의 최신 버전이 컴퓨터에 다운로드됩니다.
tar 파일 추출
추출 tar 다음 명령을 사용하여 파일-
$ tar -zxf presto-server-0.149.tar.gz
$ cd presto-server-0.149
구성 설정
"데이터"디렉토리 생성
Presto를 업그레이드 할 때 쉽게 보존 할 수 있도록 로그, 메타 데이터 등을 저장하는 데 사용할 설치 디렉터리 외부에 데이터 디렉터리를 만듭니다. 다음 코드를 사용하여 정의됩니다-
$ cd
$ mkdir data
경로를 보려면 "pwd"명령을 사용하십시오. 이 위치는 다음 node.properties 파일에 지정됩니다.
"etc"디렉토리 생성
다음 코드를 사용하여 Presto 설치 디렉터리 내에 etc 디렉터리를 만듭니다.
$ cd presto-server-0.149
$ mkdir etc
이 디렉토리에는 구성 파일이 보관됩니다. 각 파일을 하나씩 만들어 보겠습니다.
노드 속성
Presto 노드 속성 파일에는 각 노드에 특정한 환경 구성이 포함되어 있습니다. 다음 코드를 사용하여 etc 디렉토리 (etc / node.properties) 내에 생성됩니다.
$ cd etc
$ vi node.properties
node.environment = production
node.id = ffffffff-ffff-ffff-ffff-ffffffffffff
node.data-dir = /Users/../workspace/Presto
모든 변경을 수행 한 후 파일을 저장하고 터미널을 종료합니다. 여기node.data 위에서 생성 된 데이터 디렉토리의 위치 경로입니다. node.id 각 노드의 고유 식별자를 나타냅니다.
JVM 구성
etc 디렉토리 (etc / jvm.config)에 "jvm.config"파일을 만듭니다. 이 파일에는 Java Virtual Machine을 시작하는 데 사용되는 명령 줄 옵션 목록이 포함되어 있습니다.
$ cd etc
$ vi jvm.config
-server
-Xmx16G
-XX:+UseG1GC
-XX:G1HeapRegionSize = 32M
-XX:+UseGCOverheadLimit
-XX:+ExplicitGCInvokesConcurrent
-XX:+HeapDumpOnOutOfMemoryError
-XX:OnOutOfMemoryError = kill -9 %p
모든 변경을 수행 한 후 파일을 저장하고 터미널을 종료합니다.
구성 속성
etc 디렉토리 (etc / config.properties) 내에 "config.properties"파일을 만듭니다. 이 파일에는 Presto 서버의 구성이 포함되어 있습니다. 테스트를 위해 단일 머신을 설정하는 경우 Presto 서버는 다음 코드를 사용하여 정의 된 조정 프로세스로만 작동 할 수 있습니다.
$ cd etc
$ vi config.properties
coordinator = true
node-scheduler.include-coordinator = true
http-server.http.port = 8080
query.max-memory = 5GB
query.max-memory-per-node = 1GB
discovery-server.enabled = true
discovery.uri = http://localhost:8080
여기,
coordinator − 마스터 노드.
node-scheduler.include-coordinator − 코디네이터에서 작업을 예약 할 수 있습니다.
http-server.http.port − HTTP 서버의 포트를 지정합니다.
query.max-memory=5GB − 최대 분산 메모리 양.
query.max-memory-per-node=1GB − 노드 당 최대 메모리 양.
discovery-server.enabled − Presto는 Discovery 서비스를 사용하여 클러스터의 모든 노드를 찾습니다.
discovery.uri − Discovery 서버에 대한 URI.
여러 컴퓨터 Presto 서버를 설정하는 경우 Presto는 조정 및 작업자 프로세스로 작동합니다. 이 구성 설정을 사용하여 여러 컴퓨터에서 Presto 서버를 테스트합니다.
코디네이터 구성
$ cd etc
$ vi config.properties
coordinator = true
node-scheduler.include-coordinator = false
http-server.http.port = 8080
query.max-memory = 50GB
query.max-memory-per-node = 1GB
discovery-server.enabled = true
discovery.uri = http://localhost:8080
작업자 용 구성
$ cd etc
$ vi config.properties
coordinator = false
http-server.http.port = 8080
query.max-memory = 50GB
query.max-memory-per-node = 1GB
discovery.uri = http://localhost:8080
로그 속성
etc 디렉토리 (etc / log.properties) 내에 "log.properties"파일을 만듭니다. 이 파일에는 명명 된 로거 계층에 대한 최소 로그 수준이 포함되어 있습니다. 다음 코드를 사용하여 정의됩니다-
$ cd etc
$ vi log.properties
com.facebook.presto = INFO
파일을 저장하고 터미널을 종료합니다. 여기에서는 DEBUG, INFO, WARN 및 ERROR와 같은 네 가지 로그 수준이 사용됩니다. 기본 로그 수준은 INFO입니다.
카탈로그 속성
etc 디렉토리 (etc / catalog) 내에 "catalog"디렉토리를 만듭니다. 이것은 데이터를 마운트하는 데 사용됩니다. 예를 들어etc/catalog/jmx.properties 다음 내용으로 jmx connector jmx 카탈로그-
$ cd etc
$ mkdir catalog $ cd catalog
$ vi jmx.properties
connector.name = jmx
Presto 시작
Presto는 다음 명령을 사용하여 시작할 수 있습니다.
$ bin/launcher start
그러면 다음과 유사한 응답이 표시됩니다.
Started as 840
Presto 실행
Presto 서버를 시작하려면 다음 명령을 사용하십시오.
$ bin/launcher run
Presto 서버를 성공적으로 시작한 후 "var / log"디렉터리에서 로그 파일을 찾을 수 있습니다.
launcher.log −이 로그는 런처에 의해 생성되며 서버의 stdout 및 stderr 스트림에 연결됩니다.
server.log − 이것은 Presto에서 사용하는 기본 로그 파일입니다.
http-request.log − 서버가 수신 한 HTTP 요청.
이제 컴퓨터에 Presto 구성 설정을 성공적으로 설치했습니다. Presto CLI를 설치하는 단계를 계속하겠습니다.
Presto CLI 설치
Presto CLI는 쿼리 실행을위한 터미널 기반 대화 형 셸을 제공합니다.
다음 링크를 방문하여 Presto CLI를 다운로드합니다.
https://repo1.maven.org/maven2/com/facebook/presto/presto-cli/0.149/
이제 "presto-cli-0.149-executable.jar"이 컴퓨터에 설치됩니다.
CLI 실행
presto-cli를 다운로드 한 후 실행할 위치에 복사합니다. 이 위치는 코디네이터에 대한 네트워크 액세스 권한이있는 모든 노드가 될 수 있습니다. 먼저 Jar 파일의 이름을 Presto로 변경합니다. 그런 다음chmod + x 다음 코드를 사용하여 명령-
$ mv presto-cli-0.149-executable.jar presto
$ chmod +x presto
이제 다음 명령을 사용하여 CLI를 실행하십시오.
./presto --server localhost:8080 --catalog jmx --schema default
Here jmx(Java Management Extension) refers to catalog and default referes to schema.
다음과 같은 응답이 표시됩니다.
presto:default>
이제 터미널에 "jps"명령을 입력하면 실행중인 데몬이 표시됩니다.
Presto 중지
모든 실행을 수행 한 후 다음 명령을 사용하여 presto 서버를 중지 할 수 있습니다.
$ bin/launcher stop
이 장에서는 Presto의 구성 설정에 대해 설명합니다.
Presto Verifier
Presto Verifier는 다른 데이터베이스 (예 : MySQL)에 대해 Presto를 테스트하거나 두 개의 Presto 클러스터를 서로 테스트하는 데 사용할 수 있습니다.
MySQL에서 데이터베이스 생성
MySQL 서버를 열고 다음 명령을 사용하여 데이터베이스를 만듭니다.
create database test
이제 서버에 "테스트"데이터베이스를 만들었습니다. 테이블을 만들고 다음 쿼리를 사용하여로드합니다.
CREATE TABLE verifier_queries(
id INT NOT NULL AUTO_INCREMENT,
suite VARCHAR(256) NOT NULL,
name VARCHAR(256),
test_catalog VARCHAR(256) NOT NULL,
test_schema VARCHAR(256) NOT NULL,
test_prequeries TEXT,
test_query TEXT NOT NULL,
test_postqueries TEXT,
test_username VARCHAR(256) NOT NULL default 'verifier-test',
test_password VARCHAR(256),
control_catalog VARCHAR(256) NOT NULL,
control_schema VARCHAR(256) NOT NULL,
control_prequeries TEXT,
control_query TEXT NOT NULL,
control_postqueries TEXT,
control_username VARCHAR(256) NOT NULL default 'verifier-test',
control_password VARCHAR(256),
session_properties_json TEXT,
PRIMARY KEY (id)
);
구성 설정 추가
검증자를 구성하는 속성 파일을 만듭니다-
$ vi config.properties
suite = mysuite
query-database = jdbc:mysql://localhost:3306/tutorials?user=root&password=pwd
control.gateway = jdbc:presto://localhost:8080
test.gateway = jdbc:presto://localhost:8080
thread-count = 1
여기에서 query-database 필드에 mysql 데이터베이스 이름, 사용자 이름 및 암호와 같은 세부 정보를 입력합니다.
JAR 파일 다운로드
다음 링크를 방문하여 Presto-verifier jar 파일을 다운로드하십시오.
https://repo1.maven.org/maven2/com/facebook/presto/presto-verifier/0.149/
이제 버전 “presto-verifier-0.149-executable.jar” 컴퓨터에 다운로드됩니다.
JAR 실행
다음 명령을 사용하여 JAR 파일을 실행하십시오.
$ mv presto-verifier-0.149-executable.jar verifier
$ chmod+x verifier
Verifier 실행
다음 명령을 사용하여 검증기를 실행하십시오.
$ ./verifier config.properties
테이블 생성
간단한 테이블을 만들어 보겠습니다. “test” 다음 쿼리를 사용하여 데이터베이스.
create table product(id int not null, name varchar(50))
표 삽입
테이블을 생성 한 후 다음 쿼리를 사용하여 두 개의 레코드를 삽입합니다.
insert into product values(1,’Phone')
insert into product values(2,’Television’)
검증 자 쿼리 실행
검증기 터미널 (./verifier config.propeties)에서 다음 샘플 쿼리를 실행하여 검증기 결과를 확인합니다.
샘플 쿼리
insert into verifier_queries (suite, test_catalog, test_schema, test_query,
control_catalog, control_schema, control_query) values
('mysuite', 'mysql', 'default', 'select * from mysql.test.product',
'mysql', 'default', 'select * from mysql.test.product');
여기, select * from mysql.test.product 쿼리는 mysql 카탈로그를 참조하고, test 데이터베이스 이름이고 product테이블 이름입니다. 이러한 방식으로 Presto 서버를 사용하여 mysql 커넥터에 액세스 할 수 있습니다.
여기서는 성능을 확인하기 위해 두 개의 동일한 선택 쿼리가 서로 테스트됩니다. 마찬가지로 다른 쿼리를 실행하여 성능 결과를 테스트 할 수 있습니다. 두 개의 Presto 클러스터를 연결하여 성능 결과를 확인할 수도 있습니다.
이 장에서는 Presto에서 사용되는 관리 도구에 대해 설명합니다. Presto의 웹 인터페이스부터 시작하겠습니다.
웹 인터페이스
Presto는 쿼리 모니터링 및 관리를위한 웹 인터페이스를 제공합니다. 코디네이터 구성 속성에 지정된 포트 번호에서 액세스 할 수 있습니다.
Presto 서버 및 Presto CLI를 시작합니다. 그런 다음 다음 URL에서 웹 인터페이스에 액세스 할 수 있습니다.http://localhost:8080/
출력은 위 화면과 유사합니다.
여기에서 메인 페이지에는 고유 한 쿼리 ID, 쿼리 텍스트, 쿼리 상태, 완료율, 사용자 이름 및이 쿼리가 시작된 소스와 같은 정보와 함께 쿼리 목록이 있습니다. 최신 쿼리가 먼저 실행 된 다음 완료되었거나 완료되지 않은 쿼리가 하단에 표시됩니다.
Presto에서 성능 조정
Presto 클러스터에 성능 관련 문제가있는 경우 기본 구성 설정을 다음 설정으로 변경합니다.
구성 속성
task. info -refresh-max-wait − 코디네이터 작업 부하를 줄입니다.
task.max-worker-threads − 프로세스를 분할하고 각 작업자 노드에 할당합니다.
distributed-joins-enabled − 해시 기반 분산 조인.
node-scheduler.network-topology − 네트워크 토폴로지를 스케줄러로 설정합니다.
JVM 설정
기본 JVM 설정을 다음 설정으로 변경하십시오. 이는 가비지 콜렉션 문제를 진단하는 데 도움이됩니다.
-XX:+PrintGCApplicationConcurrentTime
-XX:+PrintGCApplicationStoppedTime
-XX:+PrintGCCause
-XX:+PrintGCDateStamps
-XX:+PrintGCTimeStamps
-XX:+PrintGCDetails
-XX:+PrintReferenceGC
-XX:+PrintClassHistogramAfterFullGC
-XX:+PrintClassHistogramBeforeFullGC
-XX:PrintFLSStatistics = 2
-XX:+PrintAdaptiveSizePolicy
-XX:+PrintSafepointStatistics
-XX:PrintSafepointStatisticsCount = 1
이 장에서는 Presto에서 쿼리를 생성하고 실행하는 방법에 대해 설명합니다. Presto에서 지원하는 기본 데이터 유형을 살펴 보겠습니다.
기본 데이터 유형
다음 표는 Presto의 기본 데이터 유형을 설명합니다.
S. 아니 | 데이터 유형 및 설명 |
---|---|
1. | VARCHAR 가변 길이 문자 데이터 |
2. | BIGINT 64 비트 부호있는 정수 |
삼. | DOUBLE 64 비트 부동 소수점 배정 밀도 값 |
4. | DECIMAL 고정 정밀도 10 진수. 예를 들어 DECIMAL (10,3)-10은 정밀도입니다. 즉, 총 자릿수이고 3은 소수점으로 표시되는 스케일 값입니다. 배율은 선택 사항이며 기본값은 0입니다. |
5. | BOOLEAN 부울 값 true 및 false |
6. | VARBINARY 가변 길이 이진 데이터 |
7. | JSON JSON 데이터 |
8. | DATE 년-월-일로 표시되는 날짜 데이터 유형 |
9. | TIME, TIMESTAMP, TIMESTAMP with TIME ZONE TIME-시간 (시간-분-초-밀리 초) TIMESTAMP-날짜 및 시간 TIME ZONE이있는 TIMESTAMP-값의 시간대가있는 날짜 및 시간 |
10. | INTERVAL 날짜 및 시간 데이터 유형 확장 또는 확장 |
11. | ARRAY 주어진 구성 요소 유형의 배열입니다. 예 : ARRAY [5,7] |
12. | MAP 주어진 구성 요소 유형 간의 매핑. 예 : MAP (ARRAY [ 'one', 'two'], ARRAY [5,7]) |
13. | ROW 명명 된 필드로 구성된 행 구조 |
Presto-연산자
Presto 연산자는 다음 표에 나열되어 있습니다.
S. 아니 | 연산자 및 설명 |
---|---|
1. | 산술 연산자 Presto는 +,-, *, /, %와 같은 산술 연산자를 지원합니다. |
2. | 관계 연산자 <,>, <=,> =, =, <> |
삼. | 논리 연산자 AND, OR, NOT |
4. | 범위 연산자 범위 연산자는 특정 범위의 값을 테스트하는 데 사용됩니다. Presto는 BETWEEN, IS NULL, IS NOT NULL, GREATEST 및 LEAST를 지원합니다. |
5. | 소수 연산자 이진 산술 십진 연산자는 십진 유형에 대해 이진 산술 연산을 수행합니다. 단항 십진 연산자 − The- operator 부정을 수행하다 |
6. | 문자열 연산자 그만큼 ‘||’ operator 문자열 연결을 수행합니다. |
7. | 날짜 및 시간 연산자 날짜 및 시간 데이터 유형에 대해 산술 더하기 및 빼기 연산을 수행합니다. |
8. | 배열 연산자 첨자 연산자 []-배열 요소에 액세스 연결 연산자 || -배열을 동일한 유형의 배열 또는 요소와 연결 |
9. | 지도 연산자 맵 첨자 연산자 []-맵에서 주어진 키에 해당하는 값을 검색합니다. |
지금까지 Presto에서 몇 가지 간단한 기본 쿼리를 실행하는 방법에 대해 논의했습니다. 이 장에서는 중요한 SQL 함수에 대해 설명합니다.
수학 함수
수학 함수는 수학 공식에서 작동합니다. 다음 표는 기능 목록을 자세히 설명합니다.
S. 아니. | 기능 및 설명 |
---|---|
1. | abs (x) 절대 값을 반환합니다. x |
2. | cbrt (x) 의 세제곱근을 반환합니다. x |
삼. | 천장 (x) 반환 x 가장 가까운 정수로 반올림 된 값 |
4. | ceil(x) Ceiling (x)의 별칭 |
5. | 도 (x) 다음에 대한 정도 값을 반환합니다. x |
6. | 전의) 오일러 수에 대한 double 값을 반환합니다. |
7. | exp(x) 오일러 수에 대한 지수 값을 반환합니다. |
8. | 층 (x) 보고 x 가장 가까운 정수로 내림 |
9. | from_base(string,radix) 기본 기수로 해석 된 문자열 값을 반환합니다. |
10. | ln(x) 자연 로그를 반환합니다. x |
11. | log2 (x) 밑이 2 인 로그를 반환합니다. x |
12. | log10(x) 밑이 10 인 로그를 반환합니다. x |
13. | log(x,y) 베이스를 반환합니다. y 대수 x |
14. | mod (n, m) 모듈러스 (나머지)를 반환합니다. n 로 나눈 m |
15. | pi() 파이 값을 반환합니다. 결과는 이중 값으로 반환됩니다. |
16. | 힘 (x, p) 가치의 거듭 제곱을 반환합니다. ‘p’ ~로 x 값 |
17. | pow(x,p) power (x, p)에 대한 별칭 |
18. | 라디안 (x) 각도를 변환 x 라디안 단위 |
19. | rand() 라디안 ()에 대한 별칭 |
20. | 랜덤 () 의사 난수 값을 반환합니다. |
21. | rand(n) random ()에 대한 별칭 |
22. | 원형 (x) x에 대해 반올림 된 값을 반환합니다. |
23. | round(x,d) x 반올림 된 값 ‘d’ 소수점 이하 자릿수 |
24. | sign(x) x의 signum 함수를 반환합니다. 인수가 0이면 0 인수가 0보다 큰 경우 1 인수가 0보다 작은 경우 -1 이중 인수의 경우 함수는 추가로- 인수가 NaN 인 경우 NaN 인수가 + Infinity 인 경우 1 인수가 -Infinity 인 경우 -1 |
25. | sqrt (x) 제곱근을 반환합니다. x |
26. | to_base (x, radix) 반환 유형은 궁수입니다. 결과는 다음에 대한 기본 기수로 리턴됩니다.x |
27. | 자르기 (x) 값을 자릅니다. x |
28. | width_bucket (x, bound1, bound2, n) 빈 수를 반환합니다. x 지정된 bound1 및 bound2 경계 및 n 개의 버킷 |
29. | width_bucket (x, bins) 빈 수를 반환합니다. x 배열 빈으로 지정된 빈에 따라 |
삼각 함수
삼각 함수 인수는 radians ()로 표시됩니다. 다음 표는 기능을 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | acos (x) 역 코사인 값 (x)을 반환합니다. |
2. | asin(x) 역 사인 값 (x)을 반환합니다. |
삼. | atan(x) 역 탄젠트 값 (x)을 반환합니다. |
4. | atan2 (y, x) 역 탄젠트 값 (y / x)을 반환합니다. |
5. | cos(x) 코사인 값 (x)을 반환합니다. |
6. | 코시 (x) 쌍곡 코사인 값 (x)을 반환합니다. |
7. | sin (x) 사인 값 (x)을 반환합니다. |
8. | tan(x) 탄젠트 값 (x)을 반환합니다. |
9. | tanh(x) 쌍곡 탄젠트 값 (x)을 반환합니다. |
비트 함수
다음 표에는 Bitwise 함수가 나열되어 있습니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | bit_count (x, 비트) 비트 수 계산 |
2. | 비트 별 _and (x, y) 2 비트에 대해 비트 AND 연산을 수행합니다. x 과 y |
삼. | 비트 단위 _ 또는 (x, y) 두 비트 간의 비트 OR 연산 x, y |
4. | bitwise_not (x) 비트에 대한 비트 Not 연산 x |
5. | 비트 xor (x, y) 비트에 대한 XOR 연산 x, y |
문자열 함수
다음 표는 문자열 함수를 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | concat (문자열 1, ..., 문자열 N) 주어진 문자열 연결 |
2. | 길이 (문자열) 주어진 문자열의 길이를 반환 |
삼. | 낮은 (문자열) 문자열의 소문자 형식을 반환합니다. |
4. | 대문자 (문자열) 주어진 문자열의 대문자 형식을 반환합니다. |
5. | lpad (문자열, 크기, 패드 문자열) 주어진 문자열에 대한 왼쪽 패딩 |
6. | ltrim (문자열) 문자열에서 선행 공백을 제거합니다. |
7. | 바꾸기 (문자열, 검색, 바꾸기) 문자열 값을 대체합니다. |
8. | reverse (문자열) 문자열에 대해 수행 된 작업을 되돌립니다. |
9. | rpad (문자열, 크기, 패드 문자열) 주어진 문자열에 대한 오른쪽 패딩 |
10. | rtrim (문자열) 문자열에서 후행 공백을 제거합니다. |
11. | split (문자열, 구분 기호) 구분 기호에서 문자열을 분할하고 최대 제한 크기의 배열을 반환합니다. |
12. | split_part (문자열, 구분 기호, 색인) 구분 기호에서 문자열을 분할하고 필드 인덱스를 반환합니다. |
13. | strpos (문자열, 부분 문자열) 문자열에서 하위 문자열의 시작 위치를 반환합니다. |
14. | substr (문자열, 시작) 주어진 문자열에 대한 부분 문자열을 반환합니다. |
15. | substr (문자열, 시작, 길이) 특정 길이의 주어진 문자열에 대한 부분 문자열을 반환합니다. |
16. | trim (문자열) 문자열에서 선행 및 후행 공백을 제거합니다. |
날짜 및 시간 기능
다음 표는 날짜 및 시간 기능을 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | 현재 _ 날짜 현재 날짜를 반환합니다. |
2. | 현재 시간 현재 시간을 반환합니다. |
삼. | current_timestamp 현재 타임 스탬프를 반환합니다. |
4. | current_timezone () 현재 시간대를 반환합니다. |
5. | 지금() 현재 날짜, 타임 스탬프를 시간대와 함께 반환합니다. |
6. | 현지 시각 현지 시간을 반환합니다. |
7. | localtimestamp 로컬 타임 스탬프를 반환합니다. |
정규식 함수
다음 표는 정규식 함수를 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | regexp_extract_all (문자열, 패턴) 패턴의 정규식과 일치하는 문자열을 반환합니다. |
2. | regexp_extract_all (문자열, 패턴, 그룹) 패턴 및 그룹에 대한 정규식과 일치하는 문자열을 반환합니다. |
삼. | regexp_extract (문자열, 패턴) 패턴의 정규식과 일치하는 첫 번째 부분 문자열을 반환합니다. |
4. | regexp_extract (문자열, 패턴, 그룹) 패턴 및 그룹에 대한 정규식과 일치하는 첫 번째 하위 문자열을 반환합니다. |
5. | regexp_like (문자열, 패턴) 패턴과 일치하는 문자열을 반환합니다. 문자열이 반환되면 값은 true가되고 그렇지 않으면 false가됩니다. |
6. | regexp_replace (문자열, 패턴) 표현식과 일치하는 문자열의 인스턴스를 패턴으로 바꿉니다. |
7. | regexp_replace (문자열, 패턴, 교체) 표현식과 일치하는 문자열의 인스턴스를 패턴 및 대체로 바꿉니다. |
8. | regexp_split (문자열, 패턴) 주어진 패턴에 대한 정규식을 분할합니다. |
JSON 함수
다음 표에는 JSON 함수가 나열되어 있습니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | json_array_contains (json, 값) 값이 json 배열에 있는지 확인하십시오. 값이 존재하면 true를 반환하고 그렇지 않으면 false를 반환합니다. |
2. | json_array_get (json_array, 인덱스) json 배열의 인덱스 요소 가져 오기 |
삼. | json_array_length (json) json 배열의 길이를 반환합니다. |
4. | json_format (json) json 구조 형식을 반환합니다. |
5. | json_parse (문자열) 문자열을 json으로 구문 분석합니다. |
6. | json_size (json, json_path) 값의 크기를 반환합니다. |
URL 기능
다음 표는 URL 기능을 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | url_extract_host (URL) URL의 호스트를 반환합니다. |
2. | url_extract_path (URL) URL의 경로를 반환합니다. |
삼. | url_extract_port (URL) URL의 포트를 반환합니다. |
4. | url_extract_protocol (url) URL의 프로토콜을 반환합니다. |
5. | url_extract_query (URL) URL의 쿼리 문자열을 반환합니다. |
집계 함수
다음 표에는 집계 함수가 나열되어 있습니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | avg(x) 주어진 값에 대한 평균을 반환합니다. |
2. | 최소 (x, n) 두 값에서 최소값을 반환합니다. |
삼. | 최대 (x, n) 두 값에서 최대 값을 반환합니다. |
4. | 합계 (x) 값의 합계를 반환합니다. |
5. | 카운트(*) 입력 행 수를 반환합니다. |
6. | 카운트 (x) 입력 값의 개수를 반환합니다. |
7. | 체크섬 (x) 체크섬을 반환합니다. x |
8. | 임의 (x) 임의의 값을 반환합니다. x |
색상 기능
다음 표는 색상 기능을 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | bar (x, 너비) rgb low_color 및 high_color를 사용하여 단일 막대를 렌더링합니다. |
2. | 막대 (x, 너비, 낮은 색상, 높은 색상) 지정된 너비에 대한 단일 막대를 렌더링합니다. |
삼. | 색상 (문자열) 입력 한 문자열의 색상 값을 반환합니다. |
4. | render (x, color) ANSI 색상 코드를 사용하여 특정 색상을 사용하여 값 x를 렌더링합니다. |
5. | 세우다 (b) 부울 값 b를 허용하고 ANSI 색상 코드를 사용하여 녹색 true 또는 빨간색 false를 렌더링합니다. |
6. | rgb(red, green, blue) 0에서 255 사이의 정수 매개 변수로 제공된 세 가지 구성 요소 색상 값의 RGB 값을 캡처하는 색상 값을 리턴합니다. |
배열 함수
다음 표는 배열 함수를 나열합니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | 배열 _ 최대 (x) 배열에서 최대 요소를 찾습니다. |
2. | 배열 _ 분 (x) 배열에서 최소 요소를 찾습니다. |
삼. | 배열 _ 정렬 (x) 배열의 요소를 정렬합니다. |
4. | array_remove (x, 요소) 배열에서 특정 요소를 제거합니다. |
5. | concat (x, y) 두 배열을 연결합니다. |
6. | contains (x, element) 배열에서 주어진 요소를 찾습니다. 존재하는 경우 True, 그렇지 않으면 false가 반환됩니다. |
7. | 배열 _ 위치 (x, 요소) 배열에서 주어진 요소의 위치 찾기 |
8. | array_intersect (x, y) 두 배열 간의 교차를 수행합니다. |
9. | element_at (배열, 색인) 배열 요소 위치를 반환합니다. |
10. | 슬라이스 (x, 시작, 길이) 특정 길이로 배열 요소를 슬라이스합니다. |
Teradata 함수
다음 표에는 Teradata 함수가 나열되어 있습니다.
S. 아니 | 기능 및 설명 |
---|---|
1. | index (문자열, 부분 문자열) 주어진 부분 문자열이있는 문자열의 인덱스를 반환합니다. |
2. | 부분 문자열 (문자열, 시작) 주어진 문자열의 부분 문자열을 반환합니다. 여기에서 시작 색인을 지정할 수 있습니다. |
삼. | 부분 문자열 (문자열, 시작, 길이) 특정 시작 인덱스 및 문자열 길이에 대해 지정된 문자열의 하위 문자열을 반환합니다. |
MySQL 커넥터는 외부 MySQL 데이터베이스를 쿼리하는 데 사용됩니다.
전제 조건
MySQL 서버 설치.
구성 설정
컴퓨터에 mysql 서버를 설치했으면합니다. Presto 서버에서 mysql 속성을 활성화하려면 파일을 생성해야합니다.“mysql.properties” 에 “etc/catalog”예배 규칙서. 다음 명령을 실행하여 mysql.properties 파일을 생성합니다.
$ cd etc $ cd catalog
$ vi mysql.properties
connector.name = mysql
connection-url = jdbc:mysql://localhost:3306
connection-user = root
connection-password = pwd
파일을 저장하고 터미널을 종료합니다. 위 파일에서 connection-password 필드에 mysql 비밀번호를 입력해야합니다.
MySQL 서버에서 데이터베이스 생성
MySQL 서버를 열고 다음 명령을 사용하여 데이터베이스를 만듭니다.
create database tutorials
이제 서버에 "튜토리얼"데이터베이스를 만들었습니다. 데이터베이스 유형을 활성화하려면 쿼리 창에서 "use tutorials"명령을 사용하십시오.
테이블 생성
"tutorials"데이터베이스에 간단한 테이블을 만들어 보겠습니다.
create table author(auth_id int not null, auth_name varchar(50),topic varchar(100))
표 삽입
테이블을 만든 후 다음 쿼리를 사용하여 세 개의 레코드를 삽입합니다.
insert into author values(1,'Doug Cutting','Hadoop')
insert into author values(2,’James Gosling','java')
insert into author values(3,'Dennis Ritchie’,'C')
기록 선택
모든 레코드를 검색하려면 다음 쿼리를 입력하십시오.
질문
select * from author
결과
auth_id auth_name topic
1 Doug Cutting Hadoop
2 James Gosling java
3 Dennis Ritchie C
지금까지 MySQL 서버를 사용하여 데이터를 쿼리했습니다. Mysql 스토리지 플러그인을 Presto 서버에 연결해 보겠습니다.
Presto CLI 연결
Presto CLI에서 MySql 플러그인을 연결하려면 다음 명령을 입력하십시오.
./presto --server localhost:8080 --catalog mysql --schema tutorials
다음과 같은 응답을 받게됩니다.
presto:tutorials>
여기 “tutorials” mysql 서버의 스키마를 나타냅니다.
스키마 나열
mysql의 모든 스키마를 나열하려면 Presto 서버에 다음 쿼리를 입력합니다.
질문
presto:tutorials> show schemas from mysql;
결과
Schema
--------------------
information_schema
performance_schema
sys
tutorials
이 결과를 통해 처음 세 개의 스키마는 미리 정의 된 스키마와 마지막 스키마는 직접 생성 한 것으로 결론을 내릴 수 있습니다.
스키마에서 테이블 나열
다음 쿼리는 튜토리얼 스키마의 모든 테이블을 나열합니다.
질문
presto:tutorials> show tables from mysql.tutorials;
결과
Table
--------
author
이 스키마에 테이블을 하나만 만들었습니다. 여러 테이블을 만든 경우 모든 테이블이 나열됩니다.
테이블 설명
테이블 필드를 설명하려면 다음 쿼리를 입력하십시오.
질문
presto:tutorials> describe mysql.tutorials.author;
결과
Column | Type | Comment
-----------+--------------+---------
auth_id | integer |
auth_name | varchar(50) |
topic | varchar(100) |
테이블의 열 표시
질문
presto:tutorials> show columns from mysql.tutorials.author;
결과
Column | Type | Comment
-----------+--------------+---------
auth_id | integer |
auth_name | varchar(50) |
topic | varchar(100) |
액세스 테이블 레코드
mysql 테이블에서 모든 레코드를 가져 오려면 다음 쿼리를 실행하십시오.
질문
presto:tutorials> select * from mysql.tutorials.author;
결과
auth_id | auth_name | topic
---------+----------------+--------
1 | Doug Cutting | Hadoop
2 | James Gosling | java
3 | Dennis Ritchie | C
이 결과에서 Presto에서 mysql 서버 레코드를 검색 할 수 있습니다.
as 명령을 사용하여 테이블 만들기
Mysql 커넥터는 테이블 생성 쿼리를 지원하지 않지만 명령으로 테이블을 생성 할 수 있습니다.
질문
presto:tutorials> create table mysql.tutorials.sample as
select * from mysql.tutorials.author;
결과
CREATE TABLE: 3 rows
이 커넥터에는 몇 가지 제한 사항이 있으므로 행을 직접 삽입 할 수 없습니다. 다음 쿼리를 지원할 수 없습니다-
- create
- insert
- update
- delete
- drop
새로 생성 된 테이블의 레코드를 보려면 다음 쿼리를 입력합니다.
질문
presto:tutorials> select * from mysql.tutorials.sample;
결과
auth_id | auth_name | topic
---------+----------------+--------
1 | Doug Cutting | Hadoop
2 | James Gosling | java
3 | Dennis Ritchie | C
JMX (Java Management Extensions)는 JVM 내에서 실행되는 Java Virtual Machine 및 소프트웨어에 대한 정보를 제공합니다. JMX 커넥터는 Presto 서버에서 JMX 정보를 쿼리하는 데 사용됩니다.
이미 활성화 했으므로 “jmx.properties” 아래 파일 “etc/catalog”예배 규칙서. 이제 Perst CLI를 연결하여 JMX 플러그인을 활성화합니다.
Presto CLI
질문
$ ./presto --server localhost:8080 --catalog jmx --schema jmx
결과
다음과 같은 응답을 받게됩니다.
presto:jmx>
JMX 스키마
"jmx"의 모든 스키마를 나열하려면 다음 쿼리를 입력합니다.
질문
presto:jmx> show schemas from jmx;
결과
Schema
--------------------
information_schema
current
테이블 표시
"현재"스키마의 테이블을 보려면 다음 명령을 사용하십시오.
쿼리 1
presto:jmx> show tables from jmx.current;
결과
Table
------------------------------------------------------------------------------
com.facebook.presto.execution.scheduler:name = nodescheduler
com.facebook.presto.execution:name = queryexecution
com.facebook.presto.execution:name = querymanager
com.facebook.presto.execution:name = remotetaskfactory
com.facebook.presto.execution:name = taskexecutor
com.facebook.presto.execution:name = taskmanager
com.facebook.presto.execution:type = queryqueue,name = global,expansion = global
………………
……………….
쿼리 2
presto:jmx> select * from jmx.current.”java.lang:type = compilation";
결과
node | compilationtimemonitoringsupported | name | objectname | totalcompilationti
--------------------------------------+------------------------------------+--------------------------------+----------------------------+-------------------
ffffffff-ffff-ffff-ffff-ffffffffffff | true | HotSpot 64-Bit Tiered Compilers | java.lang:type=Compilation | 1276
쿼리 3
presto:jmx> select * from jmx.current."com.facebook.presto.server:name = taskresource";
결과
node | readfromoutputbuffertime.alltime.count
| readfromoutputbuffertime.alltime.max | readfromoutputbuffertime.alltime.maxer
--------------------------------------+---------------------------------------+--------------------------------------+---------------------------------------
ffffffff-ffff-ffff-ffff-ffffffffffff | 92.0 | 1.009106149 |
Hive 커넥터를 사용하면 Hive 데이터웨어 하우스에 저장된 데이터를 쿼리 할 수 있습니다.
전제 조건
- Hadoop
- Hive
컴퓨터에 Hadoop과 Hive를 설치했으면합니다. 새 터미널에서 모든 서비스를 하나씩 시작하십시오. 그런 다음 다음 명령을 사용하여 하이브 메타 스토어를 시작합니다.
hive --service metastore
Presto는 Hive 메타 스토어 서비스를 사용하여 하이브 테이블의 세부 정보를 가져옵니다.
구성 설정
파일 생성 “hive.properties” 아래에 “etc/catalog”예배 규칙서. 다음 명령을 사용하십시오.
$ cd etc $ cd catalog
$ vi hive.properties
connector.name = hive-cdh4
hive.metastore.uri = thrift://localhost:9083
모든 변경을 수행 한 후 파일을 저장하고 터미널을 종료합니다.
데이터베이스 생성
다음 쿼리를 사용하여 Hive에서 데이터베이스를 만듭니다.
질문
hive> CREATE SCHEMA tutorials;
데이터베이스가 생성 된 후 다음을 사용하여 확인할 수 있습니다. “show databases” 명령.
테이블 생성
테이블 만들기는 Hive에서 테이블을 만드는 데 사용되는 문입니다. 예를 들어 다음 쿼리를 사용합니다.
hive> create table author(auth_id int, auth_name varchar(50),
topic varchar(100) STORED AS SEQUENCEFILE;
표 삽입
다음 쿼리는 하이브의 테이블에 레코드를 삽입하는 데 사용됩니다.
hive> insert into table author values (1,’ Doug Cutting’,Hadoop),
(2,’ James Gosling’,java),(3,’ Dennis Ritchie’,C);
Presto CLI 시작
다음 명령을 사용하여 Presto CLI를 시작하여 Hive 스토리지 플러그인을 연결할 수 있습니다.
$ ./presto --server localhost:8080 --catalog hive —schema tutorials;
다음과 같은 응답을 받게됩니다.
presto:tutorials >
스키마 나열
Hive 커넥터의 모든 스키마를 나열하려면 다음 명령을 입력하십시오.
질문
presto:tutorials > show schemas from hive;
결과
default
tutorials
목록 테이블
"tutorials"스키마의 모든 테이블을 나열하려면 다음 쿼리를 사용합니다.
질문
presto:tutorials > show tables from hive.tutorials;
결과
author
테이블 가져 오기
다음 쿼리는 하이브의 테이블에서 모든 레코드를 가져 오는 데 사용됩니다.
질문
presto:tutorials > select * from hive.tutorials.author;
결과
auth_id | auth_name | topic
---------+----------------+--------
1 | Doug Cutting | Hadoop
2 | James Gosling | java
3 | Dennis Ritchie | C
Presto 용 Kafka 커넥터를 사용하면 Presto를 사용하여 Apache Kafka의 데이터에 액세스 할 수 있습니다.
전제 조건
다음 Apache 프로젝트의 최신 버전을 다운로드하여 설치하십시오.
- Apache ZooKeeper
- Apache Kafka
ZooKeeper 시작
다음 명령을 사용하여 ZooKeeper 서버를 시작하십시오.
$ bin/zookeeper-server-start.sh config/zookeeper.properties
이제 ZooKeeper는 2181에서 포트를 시작합니다.
Kafka 시작
다음 명령을 사용하여 다른 터미널에서 Kafka를 시작합니다.
$ bin/kafka-server-start.sh config/server.properties
kafka가 시작된 후 포트 번호 9092를 사용합니다.
TPCH 데이터
tpch-kafka 다운로드
$ curl -o kafka-tpch
https://repo1.maven.org/maven2/de/softwareforge/kafka_tpch_0811/1.0/kafka_tpch_
0811-1.0.sh
이제 위의 명령을 사용하여 Maven 중앙에서 로더를 다운로드했습니다. 다음과 유사한 응답을 받게됩니다.
% Total % Received % Xferd Average Speed Time Time Time Current
Dload Upload Total Spent Left Speed
0 0 0 0 0 0 0 0 --:--:-- 0:00:01 --:--:-- 0
5 21.6M 5 1279k 0 0 83898 0 0:04:30 0:00:15 0:04:15 129k
6 21.6M 6 1407k 0 0 86656 0 0:04:21 0:00:16 0:04:05 131k
24 21.6M 24 5439k 0 0 124k 0 0:02:57 0:00:43 0:02:14 175k
24 21.6M 24 5439k 0 0 124k 0 0:02:58 0:00:43 0:02:15 160k
25 21.6M 25 5736k 0 0 128k 0 0:02:52 0:00:44 0:02:08 181k
………………………..
그런 다음 다음 명령을 사용하여 실행 가능하게 만듭니다.
$ chmod 755 kafka-tpch
tpch-kafka 실행
다음 명령을 사용하여 kafka-tpch 프로그램을 실행하여 tpch 데이터로 여러 주제를 미리로드합니다.
질문
$ ./kafka-tpch load --brokers localhost:9092 --prefix tpch. --tpch-type tiny
결과
2016-07-13T16:15:52.083+0530 INFO main io.airlift.log.Logging Logging
to stderr
2016-07-13T16:15:52.124+0530 INFO main de.softwareforge.kafka.LoadCommand
Processing tables: [customer, orders, lineitem, part, partsupp, supplier,
nation, region]
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-1
de.softwareforge.kafka.LoadCommand Loading table 'customer' into topic 'tpch.customer'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-2
de.softwareforge.kafka.LoadCommand Loading table 'orders' into topic 'tpch.orders'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-3
de.softwareforge.kafka.LoadCommand Loading table 'lineitem' into topic 'tpch.lineitem'...
2016-07-13T16:15:52.834+0530 INFO pool-1-thread-4
de.softwareforge.kafka.LoadCommand Loading table 'part' into topic 'tpch.part'...
………………………
……………………….
이제 Kafka 테이블 고객, 주문, 공급 업체 등은 tpch를 사용하여로드됩니다.
구성 설정 추가
Presto 서버에 다음 Kafka 커넥터 구성 설정을 추가해 보겠습니다.
connector.name = kafka
kafka.nodes = localhost:9092
kafka.table-names = tpch.customer,tpch.orders,tpch.lineitem,tpch.part,tpch.partsupp,
tpch.supplier,tpch.nation,tpch.region
kafka.hide-internal-columns = false
위의 구성에서 Kafka 테이블은 Kafka-tpch 프로그램을 사용하여로드됩니다.
Presto CLI 시작
다음 명령을 사용하여 Presto CLI를 시작합니다.
$ ./presto --server localhost:8080 --catalog kafka —schema tpch;
여기 “tpch" Kafka 커넥터의 스키마이며 다음과 같은 응답을 받게됩니다.
presto:tpch>
목록 테이블
다음 쿼리는 모든 테이블을 나열합니다. “tpch” 개요.
질문
presto:tpch> show tables;
결과
Table
----------
customer
lineitem
nation
orders
part
partsupp
region
supplier
고객 테이블 설명
다음 쿼리는 설명합니다. “customer” 표.
질문
presto:tpch> describe customer;
결과
Column | Type | Comment
-------------------+---------+---------------------------------------------
_partition_id | bigint | Partition Id
_partition_offset | bigint | Offset for the message within the partition
_segment_start | bigint | Segment start offset
_segment_end | bigint | Segment end offset
_segment_count | bigint | Running message count per segment
_key | varchar | Key text
_key_corrupt | boolean | Key data is corrupt
_key_length | bigint | Total number of key bytes
_message | varchar | Message text
_message_corrupt | boolean | Message data is corrupt
_message_length | bigint | Total number of message bytes
Presto의 JDBC 인터페이스는 Java 애플리케이션에 액세스하는 데 사용됩니다.
전제 조건
presto-jdbc-0.150.jar 설치
다음 링크를 방문하여 JDBC jar 파일을 다운로드 할 수 있습니다.
https://repo1.maven.org/maven2/com/facebook/presto/presto-jdbc/0.150/
jar 파일을 다운로드 한 후 Java 애플리케이션의 클래스 경로에 추가하십시오.
간단한 응용 프로그램 만들기
JDBC 인터페이스를 사용하여 간단한 자바 애플리케이션을 만들어 보겠습니다.
코딩-PrestoJdbcSample.java
import java.sql.*;
import com.facebook.presto.jdbc.PrestoDriver;
//import presto jdbc driver packages here.
public class PrestoJdbcSample {
public static void main(String[] args) {
Connection connection = null;
Statement statement = null;
try {
Class.forName("com.facebook.presto.jdbc.PrestoDriver");
connection = DriverManager.getConnection(
"jdbc:presto://localhost:8080/mysql/tutorials", "tutorials", “");
//connect mysql server tutorials database here
statement = connection.createStatement();
String sql;
sql = "select auth_id, auth_name from mysql.tutorials.author”;
//select mysql table author table two columns
ResultSet resultSet = statement.executeQuery(sql);
while(resultSet.next()){
int id = resultSet.getInt("auth_id");
String name = resultSet.getString(“auth_name");
System.out.print("ID: " + id + ";\nName: " + name + "\n");
}
resultSet.close();
statement.close();
connection.close();
}catch(SQLException sqlException){
sqlException.printStackTrace();
}catch(Exception exception){
exception.printStackTrace();
}
}
}
파일을 저장하고 응용 프로그램을 종료합니다. 이제 한 터미널에서 Presto 서버를 시작하고 새 터미널을 열어 결과를 컴파일하고 실행합니다. 다음은 단계입니다-
편집
~/Workspace/presto/presto-jdbc $ javac -cp presto-jdbc-0.149.jar PrestoJdbcSample.java
실행
~/Workspace/presto/presto-jdbc $ java -cp .:presto-jdbc-0.149.jar PrestoJdbcSample
산출
INFO: Logging initialized @146ms
ID: 1;
Name: Doug Cutting
ID: 2;
Name: James Gosling
ID: 3;
Name: Dennis Ritchie
Presto 사용자 지정 함수를 개발할 Maven 프로젝트를 만듭니다.
SimpleFunctionsFactory.java
FunctionFactory 인터페이스를 구현하기 위해 SimpleFunctionsFactory 클래스를 작성하십시오.
package com.tutorialspoint.simple.functions;
import com.facebook.presto.metadata.FunctionFactory;
import com.facebook.presto.metadata.FunctionListBuilder;
import com.facebook.presto.metadata.SqlFunction;
import com.facebook.presto.spi.type.TypeManager;
import java.util.List;
public class SimpleFunctionFactory implements FunctionFactory {
private final TypeManager typeManager;
public SimpleFunctionFactory(TypeManager typeManager) {
this.typeManager = typeManager;
}
@Override
public List<SqlFunction> listFunctions() {
return new FunctionListBuilder(typeManager)
.scalar(SimpleFunctions.class)
.getFunctions();
}
}
SimpleFunctionsPlugin.java
플러그인 인터페이스를 구현하기 위해 SimpleFunctionsPlugin 클래스를 만듭니다.
package com.tutorialspoint.simple.functions;
import com.facebook.presto.metadata.FunctionFactory;
import com.facebook.presto.spi.Plugin;
import com.facebook.presto.spi.type.TypeManager;
import com.google.common.collect.ImmutableList;
import javax.inject.Inject;
import java.util.List;
import static java.util.Objects.requireNonNull;
public class SimpleFunctionsPlugin implements Plugin {
private TypeManager typeManager;
@Inject
public void setTypeManager(TypeManager typeManager) {
this.typeManager = requireNonNull(typeManager, "typeManager is null”);
//Inject TypeManager class here
}
@Override
public <T> List<T> getServices(Class<T> type){
if (type == FunctionFactory.class) {
return ImmutableList.of(type.cast(new SimpleFunctionFactory(typeManager)));
}
return ImmutableList.of();
}
}
리소스 파일 추가
구현 패키지에 지정된 리소스 파일을 만듭니다.
(com.tutorialspoint.simple.functions.SimpleFunctionsPlugin)
이제 리소스 파일 위치 @ / path / to / resource /로 이동하십시오.
그런 다음 변경 사항을 추가하고
com.facebook.presto.spi.Plugin
pom.xml
pom.xml 파일에 다음 종속성을 추가하십시오.
<?xml version = "1.0"?>
<project xmlns = "http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation = "http://maven.apache.org/POM/4.0.0
http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>com.tutorialspoint.simple.functions</groupId>
<artifactId>presto-simple-functions</artifactId>
<packaging>jar</packaging>
<version>1.0</version>
<name>presto-simple-functions</name>
<description>Simple test functions for Presto</description>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>com.facebook.presto</groupId>
<artifactId>presto-spi</artifactId>
<version>0.149</version>
</dependency>
<dependency>
<groupId>com.facebook.presto</groupId>
<artifactId>presto-main</artifactId>
<version>0.149</version>
</dependency>
<dependency>
<groupId>javax.inject</groupId>
<artifactId>javax.inject</artifactId>
<version>1</version>
</dependency>
<dependency>
<groupId>com.google.guava</groupId>
<artifactId>guava</artifactId>
<version>19.0</version>
</dependency>
</dependencies>
<build>
<finalName>presto-simple-functions</finalName>
<plugins>
<!-- Make this jar executable -->
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-jar-plugin</artifactId>
<version>2.3.2</version>
</plugin>
</plugins>
</build>
</project>
SimpleFunctions.java
Presto 속성을 사용하여 SimpleFunctions 클래스를 만듭니다.
package com.tutorialspoint.simple.functions;
import com.facebook.presto.operator.Description;
import com.facebook.presto.operator.scalar.ScalarFunction;
import com.facebook.presto.operator.scalar.StringFunctions;
import com.facebook.presto.spi.type.StandardTypes;
import com.facebook.presto.type.LiteralParameters;
import com.facebook.presto.type.SqlType;
public final class SimpleFunctions {
private SimpleFunctions() {
}
@Description("Returns summation of two numbers")
@ScalarFunction(“mysum")
//function name
@SqlType(StandardTypes.BIGINT)
public static long sum(@SqlType(StandardTypes.BIGINT) long num1,
@SqlType(StandardTypes.BIGINT) long num2) {
return num1 + num2;
}
}
응용 프로그램을 만든 후 응용 프로그램을 컴파일하고 실행합니다. JAR 파일이 생성됩니다. 파일을 복사하고 JAR 파일을 대상 Presto 서버 플러그인 디렉토리로 이동합니다.
편집
mvn compile
실행
mvn package
이제 Presto 서버를 다시 시작하고 Presto 클라이언트를 연결합니다. 그런 다음 아래 설명 된대로 사용자 정의 함수 응용 프로그램을 실행합니다.
$ ./presto --catalog mysql --schema default
질문
presto:default> select mysum(10,10);
결과
_col0
-------
20