Apache Tajo - Architektura

Poniższa ilustracja przedstawia architekturę Apache Tajo.

W poniższej tabeli opisano szczegółowo każdy z elementów.

S.No. Opis podzespołu
1

Client

Client przesyła instrukcje SQL do Tajo Master, aby uzyskać wynik.

2

Master

Mistrz jest głównym demonem. Odpowiada za planowanie zapytań i jest koordynatorem dla pracowników.

3

Catalog server

Utrzymuje opisy tabel i indeksów. Jest osadzony w demonie Master. Serwer katalogu używa Apache Derby jako warstwy magazynowania i łączy się za pośrednictwem klienta JDBC.

4

Worker

Węzeł główny przypisuje zadania do węzłów roboczych. TajoWorker przetwarza dane. Wraz ze wzrostem liczby TajoWorkerów, liniowo rośnie również zdolność przetwarzania.

5

Query Master

Mistrz Tajo przypisuje zapytanie do wzorca zapytań. Query Master jest odpowiedzialny za kontrolowanie rozproszonego planu wykonania. Uruchamia TaskRunner i planuje zadania do TaskRunner. Główną rolą Query Master jest monitorowanie uruchomionych zadań i raportowanie ich do węzła Master.

6

Node Managers

Zarządza zasobami węzła roboczego. Decyduje o przydzielaniu żądań do węzła.

7

TaskRunner

Działa jako lokalny silnik wykonywania zapytań. Służy do uruchamiania i monitorowania procesu zapytań. TaskRunner przetwarza jedno zadanie na raz.

Ma następujące trzy główne atrybuty -

  • Plan logiczny - blok wykonawczy, który utworzył zadanie.
  • Fragment - ścieżka wejściowa, zakres przesunięcia i schemat.
  • Pobiera identyfikatory URI
8

Query Executor

Służy do wykonania zapytania.

9

Storage service

Łączy podstawowy magazyn danych z Tajo.

Przepływ pracy

Tajo używa Hadoop Distributed File System (HDFS) jako warstwy magazynu i ma własny silnik wykonywania zapytań zamiast struktury MapReduce. Klaster Tajo składa się z jednego węzła głównego i wielu procesów roboczych w węzłach klastra.

Kapitan jest głównie odpowiedzialny za planowanie zapytań i koordynator ds. Pracowników. Mistrz dzieli zapytanie na małe zadania i przydziela pracownikom. Każdy pracownik ma lokalny silnik zapytań, który wykonuje skierowany acykliczny wykres operatorów fizycznych.

Ponadto Tajo może sterować rozproszonym przepływem danych bardziej elastycznie niż MapReduce i obsługuje techniki indeksowania.

Internetowy interfejs Tajo ma następujące możliwości -

  • Możliwość sprawdzenia, jak planowane są składane zapytania
  • Możliwość sprawdzenia, w jaki sposób zapytania są dystrybuowane w węzłach
  • Możliwość sprawdzenia stanu klastra i węzłów