Apache Flink - Stapelverarbeitung gegen Echtzeitverarbeitung

In Bezug auf Big Data gibt es zwei Arten der Verarbeitung:

  • Stapelverarbeitung
  • Echtzeitverarbeitung

Die Verarbeitung basierend auf den im Laufe der Zeit gesammelten Daten wird als Stapelverarbeitung bezeichnet. Ein Bankmanager möchte beispielsweise Daten aus einem Monat (im Laufe der Zeit gesammelt) verarbeiten, um die Anzahl der Schecks zu ermitteln, die in den letzten 1 Monaten storniert wurden.

Die Verarbeitung auf der Grundlage sofortiger Daten für ein sofortiges Ergebnis wird als Echtzeitverarbeitung bezeichnet. Beispielsweise erhält ein Bankmanager unmittelbar nach einer Betrugstransaktion (sofortiges Ergebnis) eine Betrugsbenachrichtigung.

In der folgenden Tabelle sind die Unterschiede zwischen Stapel- und Echtzeitverarbeitung aufgeführt.

Stapelverarbeitung Echtzeitverarbeitung

Statische Dateien

Ereignisströme

Wird regelmäßig in Minuten, Stunden, Tagen usw. verarbeitet.

Sofort verarbeitet

Nanosekunden

Vergangene Daten auf dem Festplattenspeicher

Im Speicher

Beispiel - Rechnungserstellung

Beispiel - ATM Transaction Alert

Heutzutage wird die Echtzeitverarbeitung in jeder Organisation häufig verwendet. Anwendungsfälle wie Betrugserkennung, Echtzeitwarnungen im Gesundheitswesen und Netzwerkangriffswarnungen erfordern die Echtzeitverarbeitung von Sofortdaten. Eine Verzögerung von nur wenigen Millisekunden kann enorme Auswirkungen haben.

Ein ideales Werkzeug für solche Echtzeit-Anwendungsfälle wäre dasjenige, das Daten als Stream und nicht als Batch eingeben kann. Apache Flink ist dieses Echtzeit-Verarbeitungstool.