Hadoop - wprowadzenie

Hadoop to platforma open source Apache napisana w języku Java, która umożliwia rozproszone przetwarzanie dużych zbiorów danych w klastrach komputerów przy użyciu prostych modeli programowania. Aplikacja ramowa Hadoop działa w środowisku, które zapewnia rozproszoną pamięć masową i obliczenia w klastrach komputerów. Platforma Hadoop została zaprojektowana w celu skalowania w górę od pojedynczego serwera do tysięcy maszyn, z których każda oferuje lokalne obliczenia i pamięć masową.

Architektura Hadoop

W swej istocie Hadoop ma dwie główne warstwy, a mianowicie -

  • Warstwa przetwarzania / obliczeń (MapReduce) i
  • Warstwa pamięci masowej (rozproszony system plików Hadoop).

MapReduce

MapReduce to równoległy model programowania służący do pisania rozproszonych aplikacji opracowanych w Google w celu wydajnego przetwarzania dużych ilości danych (wieloterabajtowych zestawów danych) na dużych klastrach (tysiące węzłów) standardowego sprzętu w niezawodny i odporny na błędy sposób. Program MapReduce działa na platformie Hadoop, która jest platformą Open Source Apache.

Rozproszony system plików Hadoop

Rozproszony system plików Hadoop (HDFS) jest oparty na systemie plików Google (GFS) i zapewnia rozproszony system plików, który jest przeznaczony do uruchamiania na zwykłym sprzęcie. Ma wiele podobieństw z istniejącymi rozproszonymi systemami plików. Jednak różnice w stosunku do innych rozproszonych systemów plików są znaczące. Jest wysoce odporny na awarie i jest przeznaczony do wdrażania na niedrogim sprzęcie. Zapewnia szybki dostęp do danych aplikacji i jest odpowiedni dla aplikacji z dużymi zbiorami danych.

Oprócz wyżej wymienionych dwóch podstawowych komponentów, framework Hadoop zawiera również dwa następujące moduły -

  • Hadoop Common - Są to biblioteki Java i narzędzia wymagane przez inne moduły Hadoop.

  • Hadoop YARN - To jest struktura do planowania zadań i zarządzania zasobami klastra.

Jak działa Hadoop?

Budowanie większych serwerów z ciężkimi konfiguracjami, które obsługują przetwarzanie na dużą skalę, jest dość kosztowne, ale alternatywnie można powiązać wiele zwykłych komputerów z jednym procesorem, jako pojedynczy funkcjonalny system rozproszony i praktycznie maszyny w klastrze mogą odczytać zestaw danych równolegle i zapewniają znacznie wyższą przepustowość. Co więcej, jest tańszy niż jeden serwer wysokiej klasy. Jest to więc pierwszy czynnik motywacyjny związany z korzystaniem z Hadoop, który działa na klastrowych i tanich maszynach.

Hadoop uruchamia kod na klastrze komputerów. Ten proces obejmuje następujące podstawowe zadania, które wykonuje Hadoop -

  • Dane są początkowo podzielone na katalogi i pliki. Pliki są podzielone na bloki o jednakowej wielkości 128 MB i 64 MB (najlepiej 128 MB).

  • Pliki te są następnie dystrybuowane do różnych węzłów klastra w celu dalszego przetwarzania.

  • HDFS, będąc na szczycie lokalnego systemu plików, nadzoruje przetwarzanie.

  • Bloki są replikowane w celu obsługi awarii sprzętu.

  • Sprawdzanie, czy kod został wykonany pomyślnie.

  • Wykonywanie sortowania, które odbywa się między mapą i redukcją etapów.

  • Wysyłanie posortowanych danych do określonego komputera.

  • Pisanie dzienników debugowania dla każdego zadania.

Zalety Hadoop

  • Framework Hadoop umożliwia użytkownikowi szybkie pisanie i testowanie systemów rozproszonych. Jest wydajna i automatycznie dystrybuuje dane i działa na maszynach, wykorzystując z kolei równoległość rdzeni procesora.

  • Hadoop nie polega na sprzęcie, aby zapewnić odporność na uszkodzenia i wysoką dostępność (FTHA), raczej sama biblioteka Hadoop została zaprojektowana do wykrywania i obsługi awarii w warstwie aplikacji.

  • Serwery można dynamicznie dodawać lub usuwać z klastra, a Hadoop nadal działa bez zakłóceń.

  • Kolejną dużą zaletą Hadoop jest to, że oprócz tego, że jest open source, jest kompatybilny ze wszystkimi platformami, ponieważ jest oparty na Javie.