Najlepsze narzędzia Open Source do inżynierii danych
Dziedzina inżynierii danych jest obecnie popularna, aw świecie open source dostępnych jest wiele narzędzi. Najpierw przyjrzyjmy się kluczowym procesom potoku inżynierii danych, a następnie narzędziom procesowym.
Pochłanianie → Przechowywanie → Transformacja → Eksploruj i analizuj
Narzędzia do zarządzania przepływem pracy:
Przepływ powietrza Apache

Platformą typu open source do zarządzania przepływami pracy dla potoków inżynierii danych jest Apache Airflow. W październiku 2014 r. Airbnb wykorzystało to jako sposób na obsługę coraz bardziej skomplikowanych operacji biznesowych.
Przeczytaj więcej tutaj .
Luigi
Biblioteka Pythona (2.7, 3.6 i 3.7 przetestowana) o nazwie Luigi ułatwia tworzenie skomplikowanych potoków zadań wsadowych. Zarządza zarządzaniem przepływem pracy, wizualizacją, obsługą błędów, integracją wiersza poleceń i wieloma innymi rzeczami.
Przeczytaj więcej tutaj .
Narzędzia do przetwarzania:
Apache Kafka

Rozproszoną platformą do przechowywania zdarzeń i przetwarzania strumieni jest Apache Kafka. Jest to system open source oparty na Javie i Scali, stworzony przez Apache Software Foundation. Projekt ma na celu zapewnienie ujednoliconej platformy o wysokiej przepustowości i małych opóźnieniach do obsługi strumieni danych w czasie rzeczywistym.
Przeczytaj więcej tutaj .
Narzędzia do przechowywania:
HDFS
Aplikacje Hadoop wykorzystują głównie HDFS (Hadoop Distributed File System) jako podstawowe rozwiązanie pamięci masowej. Ramy open source działają poprzez szybkie przesyłanie danych między węzłami. Często korzystają z niego firmy, które muszą zarządzać i przechowywać duże ilości danych.
Przeczytaj więcej tutaj .
cef

Platforma pamięci masowej Ceph o otwartym kodzie źródłowym, zdefiniowana programowo, oferuje interfejsy 3 w 1 do przechowywania na poziomie obiektów, bloków i plików w jednym rozproszonym klastrze komputerów.
Przeczytaj więcej tutaj .
Szybki openstack

OpenStack Swift, powszechnie określany jako OpenStack Object Storage, to oprogramowanie typu open source stworzone do obsługi długoterminowego, ekonomicznego przechowywania ogromnych ilości danych w klastrach typowego sprzętu serwerowego.
Przeczytaj więcej tutaj .
Narzędzia transformacji:
Apache Spark
Zunifikowanym silnikiem analitycznym typu open source do analizy ogromnych ilości danych jest Apache Spark. Interfejs o nazwie Spark umożliwia programowanie klastrów z niejawną równoległością danych i odpornością na błędy.
Przeczytaj więcej tutaj .
Promień Apache
Obejmuje przetwarzanie ETL, wsadowe i strumieniowe, Apache Beam to ujednolicona architektura programistyczna typu open source do definiowania i uruchamiania potoków przetwarzania danych.
Przeczytaj więcej tutaj .
Hadoop mapreduce

Klaster Hadoop może skalować się masowo za pomocą paradygmatu programowania MapReduce na setki lub tysiące maszyn. Rdzeniem Apache Hadoop jest MapReduce, który służy jako komponent przetwarzający. Programy Hadoop wykonują dwa oddzielne i odrębne zadania, które łącznie określa się mianem „MapReduce”.
Przeczytaj więcej tutaj .
Eksploruj i analizuj Narzędzia:
Grafana

Otwarta, wieloplatformowa aplikacja online do interaktywnej wizualizacji i analiz nosi nazwę Grafana. Po podłączeniu do obsługiwanych źródeł danych udostępnia wykresy, wykresy i alerty w Internecie.
Przeczytaj więcej tutaj .
Metabaza

Narzędziem analizy biznesowej typu open source jest Metabase. Metabase umożliwia wykonywanie zapytań dotyczących danych i przedstawia wyniki w zrozumiały sposób, na przykład w postaci wykresu słupkowego lub szczegółowej tabeli. Twoje zapytania można zapisywać i organizować je w atrakcyjne pulpity nawigacyjne.
Przeczytaj więcej tutaj .
Teraz doszliśmy do końca naszego bloga. Obserwuj mnie, aby zobaczyć więcej filmów związanych z inżynierią danych.
Calp, jeśli ci się podoba.