ApacheTajo-アーキテクチャ

次の図は、ApacheTajoのアーキテクチャを示しています。

次の表で、各コンポーネントについて詳しく説明します。

S.No. コンポーネントと説明
1

Client

Client SQLステートメントをTajoMasterに送信して、結果を取得します。

2

Master

マスターはメインデーモンです。クエリプランニングを担当し、ワーカーのコーディネーターです。

3

Catalog server

テーブルとインデックスの説明を維持します。マスターデーモンに組み込まれています。カタログサーバーは、ストレージレイヤーとしてApache Derbyを使用し、JDBCクライアントを介して接続します。

4

Worker

マスターノードはタスクをワーカーノードに割り当てます。TajoWorkerはデータを処理します。TajoWorkerの数が増えると、処理能力も直線的に増加します。

5

Query Master

Tajoマスターはクエリをクエリマスターに割り当てます。クエリマスターは、分散実行プランの制御を担当します。TaskRunnerを起動し、タスクをTaskRunnerにスケジュールします。クエリマスターの主な役割は、実行中のタスクを監視し、それらをマスターノードに報告することです。

6

Node Managers

ワーカーノードのリソースを管理します。ノードへのリクエストの割り当てを決定します。

7

TaskRunner

ローカルクエリ実行エンジンとして機能します。クエリプロセスを実行および監視するために使用されます。TaskRunnerは、一度に1つのタスクを処理します。

次の3つの主要な属性があります-

  • 論理計画-タスクを作成した実行ブロック。
  • フラグメント-入力パス、オフセット範囲、およびスキーマ。
  • URIを取得します
8

Query Executor

クエリを実行するために使用されます。

9

Storage service

基盤となるデータストレージをTajoに接続します。

ワークフロー

TajoはストレージレイヤーとしてHadoop分散ファイルシステム(HDFS)を使用し、MapReduceフレームワークの代わりに独自のクエリ実行エンジンを備えています。Tajoクラスターは、1つのマスターノードとクラスターノード全体の複数のワーカーで構成されます。

マスターは主にクエリプランニングとワーカーのコーディネーターを担当します。マスターはクエリを小さなタスクに分割し、ワーカーに割り当てます。各ワーカーには、物理​​演算子の有向非巡回グラフを実行するローカルクエリエンジンがあります。

さらに、Tajoは、MapReduceよりも柔軟に分散データフローを制御でき、インデックス作成手法をサポートします。

TajoのWebベースのインターフェースには次の機能があります-

  • 送信されたクエリがどのように計画されているかを見つけるオプション
  • クエリがノード間でどのように分散されているかを見つけるオプション
  • クラスタとノードのステータスを確認するオプション