Apache Presto-개요

데이터 분석은 더 나은 의사 결정을 위해 관련 정보를 수집하기 위해 원시 데이터를 분석하는 프로세스입니다. 주로 많은 조직에서 비즈니스 결정을 내리는 데 사용됩니다. 음, 빅 데이터 분석에는 많은 양의 데이터가 포함되며이 프로세스는 매우 복잡하므로 회사는 다른 전략을 사용합니다.

예를 들어, Facebook은 세계 최고의 데이터 기반 및 최대 데이터웨어 하우스 회사 중 하나입니다. Facebook웨어 하우스 데이터는 대규모 계산을 위해 Hadoop에 저장됩니다. 나중에웨어 하우스 데이터가 페타 바이트로 증가하자 지연 시간이 짧은 새로운 시스템을 개발하기로 결정했습니다. 2012 년에 Facebook 팀원들은“Presto” 페타 바이트의 데이터로도 빠르게 작동하는 대화 형 쿼리 분석 용

Apache Presto 란 무엇입니까?

Apache Presto는 낮은 지연 시간과 대화 형 쿼리 분석에 최적화 된 분산 병렬 쿼리 실행 엔진입니다. Presto는 쿼리를 쉽게 실행하고 기가 바이트에서 페타 바이트까지 다운 타임없이 확장됩니다.

단일 Presto 쿼리는 HDFS, MySQL, Cassandra, Hive 및 더 많은 데이터 소스와 같은 여러 소스의 데이터를 처리 할 수 ​​있습니다. Presto는 Java로 구축되었으며 다른 데이터 인프라 구성 요소와 쉽게 통합됩니다. Presto는 강력하며 Airbnb, DropBox, Groupon, Netflix와 같은 선도 기업이이를 채택하고 있습니다.

Presto-특징

Presto에는 다음과 같은 기능이 있습니다.

  • 간단하고 확장 가능한 아키텍처.
  • 플러그 형 커넥터-Presto는 쿼리에 대한 메타 데이터 및 데이터를 제공하기 위해 플러그 형 커넥터를 지원합니다.
  • 파이프 라인 실행-불필요한 I / O 대기 시간 오버 헤드를 방지합니다.
  • 사용자 정의 함수-분석가는 사용자 정의 사용자 정의 함수를 만들어 쉽게 마이그레이션 할 수 있습니다.
  • 벡터화 된 열 처리.

Presto-장점

다음은 Apache Presto가 제공하는 이점 목록입니다.

  • 전문 SQL 작업
  • 간편한 설치 및 디버그
  • 간단한 저장소 추상화
  • 짧은 지연 시간으로 페타 바이트 데이터를 빠르게 확장

Presto − 애플리케이션

Presto는 오늘날 최고의 산업용 애플리케이션 대부분을 지원합니다. 몇 가지 주목할만한 응용 프로그램을 살펴 보겠습니다.

  • Facebook− Facebook은 데이터 분석 요구를 위해 Presto를 구축했습니다. Presto는 대용량 데이터를 쉽게 확장합니다.

  • Teradata− Teradata는 빅 데이터 분석 및 데이터웨어 하우징에서 엔드 투 엔드 솔루션을 제공합니다. Presto에 대한 Teradata의 기여 덕분에 더 많은 기업이 모든 분석 요구 사항을 쉽게 지원할 수 있습니다.

  • Airbnb− Presto는 Airbnb 데이터 인프라의 필수적인 부분입니다. 수백 명의 직원이 매일이 기술을 사용하여 쿼리를 실행하고 있습니다.

왜 Presto인가?

Presto는 표준 ANSI SQL을 지원하므로 데이터 분석가와 개발자가 매우 쉽게 사용할 수 있습니다. Java로 빌드되었지만 메모리 할당 및 가비지 수집과 관련된 Java 코드의 일반적인 문제를 방지합니다. Presto에는 Hadoop 친화적 인 커넥터 아키텍처가 있습니다. 파일 시스템을 쉽게 연결할 수 있습니다.

Presto는 여러 Hadoop 배포에서 실행됩니다. 또한 Presto는 Hadoop 플랫폼에서 연락하여 Cassandra, 관계형 데이터베이스 또는 기타 데이터 저장소를 쿼리 할 수 ​​있습니다. 이 교차 플랫폼 분석 기능을 통해 Presto 사용자는 최대 비즈니스 가치를 기가 바이트에서 페타 바이트의 데이터로 추출 할 수 있습니다.