ApachePresto-概要

データ分析は、生データを分析して関連情報を収集し、意思決定を改善するプロセスです。これは主に、ビジネス上の意思決定を行うために多くの組織で使用されます。ビッグデータ分析には大量のデータが含まれ、このプロセスは非常に複雑であるため、企業はさまざまな戦略を使用します。

たとえば、Facebookは、データ駆動型で世界最大のデータウェアハウス企業の1つです。Facebookのウェアハウスデータは、大規模な計算のためにHadoopに保存されます。その後、ウェアハウスデータがペタバイトに増加したとき、彼らは低遅延の新しいシステムを開発することを決定しました。2012年、Facebookチームのメンバーは“Presto” ペタバイトのデータでも迅速に動作するインタラクティブなクエリ分析用。

Apache Prestoとは何ですか?

Apache Prestoは、分散並列クエリ実行エンジンであり、低レイテンシとインタラクティブなクエリ分析用に最適化されています。Prestoはクエリを簡単に実行し、ギガバイトからペタバイトまでダウンタイムなしで拡張できます。

1つのPrestoクエリで、HDFS、MySQL、Cassandra、Hiveなどの複数のデータソースからのデータを処理できます。PrestoはJavaに組み込まれており、他のデータインフラストラクチャコンポーネントと簡単に統合できます。Prestoは強力であり、Airbnb、DropBox、Groupon、Netflixなどの大手企業が採用しています。

Presto-機能

Prestoには次の機能が含まれています-

  • シンプルで拡張可能なアーキテクチャ。
  • プラグ可能なコネクタ-Prestoは、クエリのメタデータとデータを提供するプラグ可能なコネクタをサポートしています。
  • パイプライン化された実行-不要なI / Oレイテンシのオーバーヘッドを回避します。
  • ユーザー定義関数-アナリストは、カスタムユーザー定義関数を作成して簡単に移行できます。
  • ベクトル化された柱状処理。

Presto-メリット

ApachePrestoが提供するメリットのリストは次のとおりです-

  • 特殊なSQL操作
  • インストールとデバッグが簡単
  • シンプルなストレージの抽象化
  • ペタバイトのデータを低レイテンシで迅速にスケーリング

Presto-アプリケーション

Prestoは、今日の最高の産業用アプリケーションのほとんどをサポートしています。注目すべきアプリケーションのいくつかを見てみましょう。

  • Facebook− Facebookは、データ分析のニーズに対応するためにPrestoを構築しました。Prestoは、高速のデータを簡単にスケーリングします。

  • Teradata− Teradataは、ビッグデータ分析とデータウェアハウジングのエンドツーエンドソリューションを提供します。PrestoへのTeradataの貢献により、より多くの企業がすべての分析ニーズを簡単に実現できるようになります。

  • Airbnb− Prestoは、Airbnbデータインフラストラクチャの不可欠な部分です。ええと、何百人もの従業員がこのテクノロジーを使って毎日クエリを実行しています。

なぜプレスト?

Prestoは標準のANSISQLをサポートしているため、データアナリストや開発者にとって非常に簡単です。Javaで構築されていますが、メモリ割り当てとガベージコレクションに関連するJavaコードの一般的な問題を回避します。Prestoには、Hadoopに適したコネクタアーキテクチャがあります。ファイルシステムを簡単に接続できます。

Prestoは複数のHadoopディストリビューションで実行されます。さらに、PrestoはHadoopプラットフォームから連絡を取り、Cassandra、リレーショナルデータベース、またはその他のデータストアにクエリを実行できます。このクロスプラットフォームの分析機能により、Prestoユーザーはギガバイトからペタバイトのデータから最大のビジネス価値を引き出すことができます。