I migliori strumenti Open Source per l'ingegneria dei dati
Il campo dell'ingegneria dei dati è popolare al giorno d'oggi e molti strumenti sono disponibili nel mondo open source. Quindi, prima vediamo i processi chiave della pipeline di ingegneria dei dati e quindi gli strumenti per quanto riguarda il processo.
Ingestione → Archiviazione → Trasformazione → Esplora e analizza
Strumenti di gestione del flusso di lavoro:
Flusso d'aria Apache
Un framework open source per la gestione dei flussi di lavoro per le pipeline di ingegneria dei dati è Apache Airflow. Nell'ottobre 2014, Airbnb lo ha utilizzato come un modo per gestire le operazioni sempre più complicate dell'azienda.
Leggi di più qui .
Luigi
Una libreria Python (2.7, 3.6 e 3.7 testata) chiamata Luigi semplifica la creazione di complesse pipeline di attività batch. Gestisce la gestione del flusso di lavoro, la visualizzazione, la gestione degli errori, l'integrazione della riga di comando e molte altre cose.
Leggi di più qui .
Strumenti di importazione:
Apache Kafka
Un archivio di eventi distribuito e una piattaforma di elaborazione del flusso è Apache Kafka. È un sistema open source basato su Java e Scala creato dalla Apache Software Foundation. Il progetto mira a fornire una piattaforma unificata, ad alto rendimento e bassa latenza per la gestione dei feed di dati in tempo reale.
Leggi di più qui .
Strumenti di archiviazione:
HDFS
Le applicazioni Hadoop utilizzano principalmente HDFS (Hadoop Distributed File System) come soluzione di archiviazione primaria. Il framework open source funziona inviando dati rapidamente tra i nodi. Le aziende che devono gestire e archiviare grandi quantità di dati lo utilizzano frequentemente.
Leggi di più qui .
Cef
La piattaforma software-defined storage Ceph open source offre interfacce 3 in 1 per lo storage a livello di oggetto, blocco e file su un singolo cluster di computer distribuito.
Leggi di più qui .
Rapido openstack
OpenStack Swift, comunemente indicato come OpenStack Object Storage, è un software open source creato per gestire l'archiviazione a lungo termine e conveniente di enormi volumi di dati su cluster di hardware server comune.
Leggi di più qui .
Strumenti di trasformazione:
Scintilla Apache
Un motore di analisi unificata open source per l'analisi di enormi quantità di dati è Apache Spark. Un'interfaccia chiamata Spark consente di programmare i cluster con parallelismo dei dati implicito e tolleranza agli errori.
Leggi di più qui .
Fascio di Apache
Includendo l'elaborazione ETL, batch e stream, Apache Beam è un'architettura di programmazione unificata open source per la definizione e l'esecuzione di pipeline di elaborazione dati.
Leggi di più qui .
Hadoop mapreduce
Un cluster Hadoop può scalare in modo massiccio con l'aiuto del paradigma di programmazione MapReduce su centinaia o migliaia di macchine. Il nucleo di Apache Hadoop è MapReduce, che funge da componente di elaborazione. I programmi Hadoop eseguono due attività separate e distinte che collettivamente vengono denominate "MapReduce".
Leggi di più qui .
Esplora e analizza gli strumenti:
Grafana
Un'applicazione online open source e multipiattaforma per la visualizzazione interattiva e l'analisi si chiama Grafana. Quando è connesso a origini dati supportate, offre diagrammi, grafici e avvisi per il Web.
Leggi di più qui .
Metabase
Uno strumento di business intelligence open source è Metabase. Metabase ti consente di interrogare i tuoi dati e presenta i risultati in modi comprensibili, come un grafico a barre o una tabella completa. Le tue query possono essere salvate e puoi organizzarle in dashboard accattivanti.
Leggi di più qui .
Ora siamo giunti alla fine del nostro blog. Seguimi per altri video relativi all'ingegneria dei dati.
Calpe se ti piace.