Apache Flink - Einführung
Apache Flink ist ein Echtzeit-Verarbeitungsframework, das Streaming-Daten verarbeiten kann. Es ist ein Open-Source-Stream-Verarbeitungsframework für leistungsstarke, skalierbare und genaue Echtzeitanwendungen. Es verfügt über ein echtes Streaming-Modell und verwendet keine Eingabedaten als Batch- oder Mikrobatches.
Apache Flink wurde von der Firma Data Artisans gegründet und wird jetzt unter der Apache-Lizenz von der Apache Flink Community entwickelt. Diese Community hat bisher über 479 Mitwirkende und mehr als 15500 Commits.
Ökosystem auf Apache Flink
Das folgende Diagramm zeigt die verschiedenen Schichten des Apache Flink-Ökosystems -
Lager
Apache Flink bietet mehrere Optionen zum Lesen / Schreiben von Daten. Unten finden Sie eine grundlegende Speicherliste -
- HDFS (Hadoop Distributed File System)
- Lokales Dateisystem
- S3
- RDBMS (MySQL, Oracle, MS SQL usw.)
- MongoDB
- HBase
- Apache Kafka
- Apache Flume
Bereitstellen
Sie können Apache Fink im lokalen Modus, im Cluster-Modus oder in der Cloud bereitstellen. Der Cluster-Modus kann Standalone, YARN, MESOS sein.
In der Cloud kann Flink auf AWS oder GCP bereitgestellt werden.
Kernel
Dies ist die Laufzeitschicht, die verteilte Verarbeitung, Fehlertoleranz, Zuverlässigkeit, native iterative Verarbeitungsfähigkeit und mehr bietet.
APIs & Bibliotheken
Dies ist die oberste und wichtigste Ebene von Apache Flink. Es verfügt über eine Dataset-API, die sich um die Stapelverarbeitung kümmert, und eine Datastream-API, die sich um die Stream-Verarbeitung kümmert. Es gibt andere Bibliotheken wie Flink ML (für maschinelles Lernen), Gelly (für die Grafikverarbeitung) und Tabellen für SQL. Diese Ebene bietet Apache Flink verschiedene Funktionen.