Apache Flink - Architektur
Apache Flink arbeitet an der Kappa-Architektur. Die Kappa-Architektur verfügt über einen einzigen Prozessor - Stream, der alle Eingaben als Stream behandelt, und die Streaming Engine verarbeitet die Daten in Echtzeit. Batch-Daten in der Kappa-Architektur sind ein Sonderfall beim Streaming.
Das folgende Diagramm zeigt die Apache Flink Architecture.
Die Schlüsselidee in der Kappa-Architektur besteht darin, sowohl Stapel- als auch Echtzeitdaten über eine einzige Stream-Verarbeitungs-Engine zu verarbeiten.
Die meisten Big-Data-Frameworks arbeiten mit der Lambda-Architektur, die über separate Prozessoren für Batch- und Streaming-Daten verfügt. In der Lambda-Architektur verfügen Sie über separate Codebasen für Stapel- und Stream-Ansichten. Zum Abfragen und Abrufen des Ergebnisses müssen die Codebasen zusammengeführt werden. Es ist mühsam, keine separaten Codebasen / Ansichten zu verwalten und zusammenzuführen, aber die Kappa-Architektur löst dieses Problem, da sie nur eine Ansicht hat - in Echtzeit. Daher ist das Zusammenführen der Codebasis nicht erforderlich.
Dies bedeutet nicht, dass die Kappa-Architektur die Lambda-Architektur ersetzt, sondern hängt vollständig vom Anwendungsfall und der Anwendung ab, die entscheidet, welche Architektur vorzuziehen ist.
Das folgende Diagramm zeigt die Apache Flink-Jobausführungsarchitektur.
Programm
Es ist ein Teil des Codes, den Sie auf dem Flink-Cluster ausführen.
Klient
Es ist dafür verantwortlich, Code (Programm) zu übernehmen, ein Jobdatenflussdiagramm zu erstellen und es dann an JobManager zu übergeben. Außerdem werden die Auftragsergebnisse abgerufen.
JobManager
Nach dem Empfang des Jobdatenflussdiagramms vom Client ist es für die Erstellung des Ausführungsdiagramms verantwortlich. Es weist den Job TaskManagern im Cluster zu und überwacht die Ausführung des Jobs.
Taskmanager
Es ist für die Ausführung aller Aufgaben verantwortlich, die von JobManager zugewiesen wurden. Alle TaskManager führen die Aufgaben in ihren festgelegten Slots in festgelegter Parallelität aus. Es ist dafür verantwortlich, den Status der Aufgaben an JobManager zu senden.
Funktionen von Apache Flink
Die Funktionen von Apache Flink sind wie folgt:
Es verfügt über einen Streaming-Prozessor, der sowohl Batch- als auch Stream-Programme ausführen kann.
Es kann Daten blitzschnell verarbeiten.
APIs in Java, Scala und Python verfügbar.
Bietet APIs für alle gängigen Vorgänge, die für Programmierer sehr einfach zu verwenden sind.
Verarbeitet Daten mit geringer Latenz (Nanosekunden) und hohem Durchsatz.
Es ist fehlertolerant. Wenn ein Knoten, eine Anwendung oder eine Hardware ausfällt, hat dies keine Auswirkungen auf den Cluster.
Kann problemlos in Apache Hadoop, Apache MapReduce, Apache Spark, HBase und andere Big-Data-Tools integriert werden.
Die In-Memory-Verwaltung kann zur besseren Berechnung angepasst werden.
Es ist hoch skalierbar und kann bis zu Tausenden von Knoten in einem Cluster skalieren.
Das Fenster ist in Apache Flink sehr flexibel.
Bietet Bibliotheken für Grafikverarbeitung, maschinelles Lernen und komplexe Ereignisverarbeitung.