Apache Flink - Bibliotheken
In diesem Kapitel lernen wir die verschiedenen Bibliotheken von Apache Flink kennen.
Komplexe Ereignisverarbeitung (CEP)
FlinkCEP ist eine API in Apache Flink, die Ereignismuster für kontinuierliche Streaming-Daten analysiert. Diese Ereignisse sind nahezu in Echtzeit und haben einen hohen Durchsatz und eine geringe Latenz. Diese API wird hauptsächlich für Sensordaten verwendet, die in Echtzeit vorliegen und sehr komplex zu verarbeiten sind.
CEP analysiert das Muster des Eingabestreams und gibt das Ergebnis sehr bald wieder. Es bietet die Möglichkeit, Benachrichtigungen und Warnungen in Echtzeit bereitzustellen, falls das Ereignismuster komplex ist. FlinkCEP kann eine Verbindung zu verschiedenen Arten von Eingabequellen herstellen und darin Muster analysieren.
So sieht eine Beispielarchitektur mit CEP aus -
Sensordaten werden aus verschiedenen Quellen eingehen, Kafka wird als verteiltes Messaging-Framework fungieren, das die Streams an Apache Flink verteilt, und FlinkCEP wird die komplexen Ereignismuster analysieren.
Sie können Programme in Apache Flink für die Verarbeitung komplexer Ereignisse mithilfe der Muster-API schreiben. Sie können die zu erkennenden Ereignismuster anhand der Daten des kontinuierlichen Streams festlegen. Im Folgenden sind einige der am häufigsten verwendeten CEP-Muster aufgeführt:
Start
Es wird verwendet, um den Startzustand zu definieren. Das folgende Programm zeigt, wie es in einem Flink-Programm definiert ist -
Pattern<Event, ?> next = start.next("next");
Wo
Es wird verwendet, um eine Filterbedingung im aktuellen Status zu definieren.
patternState.where(new FilterFunction <Event>() {
@Override
public boolean filter(Event value) throws Exception {
}
});
Nächster
Es wird verwendet, um einen neuen Musterstatus und das Übereinstimmungsereignis anzuhängen, das zum Übergeben des vorherigen Musters erforderlich ist.
Pattern<Event, ?> next = start.next("next");
Gefolgt von
Es wird verwendet, um einen neuen Musterstatus anzuhängen, aber hier können andere Ereignisse s / w zwei übereinstimmende Ereignisse auftreten.
Pattern<Event, ?> followedBy = start.followedBy("next");
Gelly
Die Graph API von Apache Flink ist Gelly. Gelly wird verwendet, um eine Diagrammanalyse für Flink-Anwendungen mit einer Reihe von Methoden und Dienstprogrammen durchzuführen. Mit Gelly können Sie mithilfe der Apache Flink-API große Diagramme auf verteilte Weise analysieren. Es gibt auch andere Grafikbibliotheken wie Apache Giraph für den gleichen Zweck, aber da Gelly zusätzlich zu Apache Flink verwendet wird, wird eine einzelne API verwendet. Dies ist aus Sicht der Entwicklung und des Betriebs sehr hilfreich.
Lassen Sie uns ein Beispiel mit der Apache Flink API - Gelly ausführen.
Zunächst müssen Sie 2 Gelly-JAR-Dateien aus dem opt-Verzeichnis von Apache Flink in das lib-Verzeichnis kopieren. Dann lassen Sie flink-gelly-Beispiele Glas laufen.
cp opt/flink-gelly* lib/
./bin/flink run examples/gelly/flink-gelly-examples_*.jar
Lassen Sie uns nun das PageRank-Beispiel ausführen.
PageRank berechnet eine Bewertung pro Scheitelpunkt, bei der es sich um die Summe der PageRank-Bewertungen handelt, die über Kanten übertragen werden. Die Punktzahl jedes Scheitelpunkts wird gleichmäßig auf die Außenkanten verteilt. Scheitelpunkte mit hoher Punktzahl sind durch andere Scheitelpunkte mit hoher Punktzahl verbunden.
Das Ergebnis enthält die Scheitelpunkt-ID und den PageRank-Score.
usage: flink run examples/flink-gelly-examples_<version>.jar --algorithm PageRank [algorithm options] --input <input> [input options] --output <output> [output options]
./bin/flink run examples/gelly/flink-gelly-examples_*.jar --algorithm PageRank --input CycleGraph --vertex_count 2 --output Print