Impala-アーキテクチャ

Impalaは、Hadoopクラスター内の多数のシステムで実行されるMPP(Massive Parallel Processing)クエリ実行エンジンです。従来のストレージシステムとは異なり、impalaはストレージエンジンから切り離されています。これには、Impalaデーモン(Impalad)、Impala Statestore、およびImpalaメタデータまたはメタストアの3つの主要コンポーネントがあります。

Impalaデーモン(Impalad

Impalaデーモン(別名 impalad)Impalaがインストールされている各ノードで実行されます。Impalaシェル、色相ブラウザなどのさまざまなインターフェイスからのクエリを受け入れ、それらを処理します。

クエリが特定のノードのインパラドに送信されると、そのノードは「coordinator nodeそのクエリの」。複数のクエリは、他のノードで実行されているImpaladによっても処理されます。クエリを受け入れた後、Impaladはデータファイルの読み取りと書き込みを行い、Impalaクラスター内の他のImpalaノードに作業を分散することでクエリを並列化します。クエリがさまざまなImpaladインスタンスで処理されている場合、それらすべてが結果を中央の調整ノードに返します。

要件に応じて、クエリを専用のImpaladに送信することも、負荷分散された方法でクラスター内の別のImpaladに送信することもできます。

インパラステートストア

Impalaには、Impala Stateストアと呼ばれる別の重要なコンポーネントがあります。これは、各Impaladの状態をチェックし、各Impalaデーモンの状態を他のデーモンに頻繁に中継する役割を果たします。これは、Impalaサーバーまたはクラスター内の他のノードが実行されているのと同じノードで実行できます。

インパラ状態ストアデーモンプロセスの名前がされた状態で保存されましたImpaladは、すなわち、インパラ状態ストアデーモンにその健康状態を報告する状態が保存されました

何らかの理由でノードに障害が発生した場合、Statestoreはこの障害について他のすべてのノードを更新し、そのような通知が他のimpaladで利用可能になると、他のImpalaデーモンは影響を受けるノードにそれ以上のクエリを割り当てません。

Impalaメタデータとメタストア

Impalaメタデータとメタストアはもう1つの重要なコンポーネントです。Impalaは、従来のMySQLまたはPostgreSQLデータベースを使用してテーブル定義を格納します。テーブルと列の情報やテーブルの定義などの重要な詳細は、メタストアと呼ばれる一元化されたデータベースに保存されます。

各Impalaノードは、すべてのメタデータをローカルにキャッシュします。非常に大量のデータや多数のパーティションを処理する場合、テーブル固有のメタデータの取得にはかなりの時間がかかる可能性があります。したがって、ローカルに保存されたメタデータキャッシュは、そのような情報を即座に提供するのに役立ちます。

テーブル定義またはテーブルデータが更新されると、他のImpalaデーモンは、問題のテーブルに対して新しいクエリを発行する前に、最新のメタデータを取得してメタデータキャッシュを更新する必要があります。

クエリ処理インターフェイス

クエリを処理するために、Impalaは以下にリストされている3つのインターフェースを提供します。

  • Impala-shell − Cloudera VMを使用してImpalaをセットアップした後、コマンドを入力してImpalaシェルを起動できます impala-shellエディターで。Impalaシェルについては、次の章で詳しく説明します。

  • Hue interface−Hueブラウザを使用してImpalaクエリを処理できます。Hueブラウザーには、Impalaクエリを入力して実行できるImpalaクエリエディターがあります。このエディターにアクセスするには、まず、Hueブラウザーにログオンする必要があります。

  • ODBC/JDBC drivers−他のデータベースと同様に、ImpalaはODBC / JDBCドライバーを提供します。これらのドライバーを使用すると、これらのドライバーをサポートするプログラミング言語を介してimpalaに接続し、これらのプログラミング言語を使用してimpalaでクエリを処理するアプリケーションを構築できます。

クエリ実行手順

ユーザーが提供されたインターフェースのいずれかを使用してクエリを渡すときはいつでも、これはクラスター内のImpaladの1つによって受け入れられます。このImpaladは、その特定のクエリのコーディネーターとして扱われます。

クエリを受信した後、クエリコーディネーターは、クエリを使用してクエリが適切かどうかを確認します。 Table SchemaHiveメタストアから。後で、クエリの実行に必要なデータの場所に関する情報をHDFSネームノードから収集し、クエリを実行するためにこの情報を他のインパラドに送信します。

他のすべてのImpalaデーモンは、指定されたデータブロックを読み取り、クエリを処理します。すべてのデーモンがタスクを完了するとすぐに、クエリコーディネーターは結果を収集してユーザーに配信します。