Apache Flink - Einführung

Apache Flink ist ein Echtzeit-Verarbeitungsframework, das Streaming-Daten verarbeiten kann. Es ist ein Open-Source-Stream-Verarbeitungsframework für leistungsstarke, skalierbare und genaue Echtzeitanwendungen. Es verfügt über ein echtes Streaming-Modell und verwendet keine Eingabedaten als Batch- oder Mikrobatches.

Apache Flink wurde von der Firma Data Artisans gegründet und wird jetzt unter der Apache-Lizenz von der Apache Flink Community entwickelt. Diese Community hat bisher über 479 Mitwirkende und mehr als 15500 Commits.

Ökosystem auf Apache Flink

Das folgende Diagramm zeigt die verschiedenen Schichten des Apache Flink-Ökosystems -

Lager

Apache Flink bietet mehrere Optionen zum Lesen / Schreiben von Daten. Unten finden Sie eine grundlegende Speicherliste -

  • HDFS (Hadoop Distributed File System)
  • Lokales Dateisystem
  • S3
  • RDBMS (MySQL, Oracle, MS SQL usw.)
  • MongoDB
  • HBase
  • Apache Kafka
  • Apache Flume

Bereitstellen

Sie können Apache Fink im lokalen Modus, im Cluster-Modus oder in der Cloud bereitstellen. Der Cluster-Modus kann Standalone, YARN, MESOS sein.

In der Cloud kann Flink auf AWS oder GCP bereitgestellt werden.

Kernel

Dies ist die Laufzeitschicht, die verteilte Verarbeitung, Fehlertoleranz, Zuverlässigkeit, native iterative Verarbeitungsfähigkeit und mehr bietet.

APIs & Bibliotheken

Dies ist die oberste und wichtigste Ebene von Apache Flink. Es verfügt über eine Dataset-API, die sich um die Stapelverarbeitung kümmert, und eine Datastream-API, die sich um die Stream-Verarbeitung kümmert. Es gibt andere Bibliotheken wie Flink ML (für maschinelles Lernen), Gelly (für die Grafikverarbeitung) und Tabellen für SQL. Diese Ebene bietet Apache Flink verschiedene Funktionen.