Apache Flink - Stapelverarbeitung gegen Echtzeitverarbeitung
In Bezug auf Big Data gibt es zwei Arten der Verarbeitung:
- Stapelverarbeitung
- Echtzeitverarbeitung
Die Verarbeitung basierend auf den im Laufe der Zeit gesammelten Daten wird als Stapelverarbeitung bezeichnet. Ein Bankmanager möchte beispielsweise Daten aus einem Monat (im Laufe der Zeit gesammelt) verarbeiten, um die Anzahl der Schecks zu ermitteln, die in den letzten 1 Monaten storniert wurden.
Die Verarbeitung auf der Grundlage sofortiger Daten für ein sofortiges Ergebnis wird als Echtzeitverarbeitung bezeichnet. Beispielsweise erhält ein Bankmanager unmittelbar nach einer Betrugstransaktion (sofortiges Ergebnis) eine Betrugsbenachrichtigung.
In der folgenden Tabelle sind die Unterschiede zwischen Stapel- und Echtzeitverarbeitung aufgeführt.
Stapelverarbeitung | Echtzeitverarbeitung |
---|---|
Statische Dateien |
Ereignisströme |
Wird regelmäßig in Minuten, Stunden, Tagen usw. verarbeitet. |
Sofort verarbeitet Nanosekunden |
Vergangene Daten auf dem Festplattenspeicher |
Im Speicher |
Beispiel - Rechnungserstellung |
Beispiel - ATM Transaction Alert |
Heutzutage wird die Echtzeitverarbeitung in jeder Organisation häufig verwendet. Anwendungsfälle wie Betrugserkennung, Echtzeitwarnungen im Gesundheitswesen und Netzwerkangriffswarnungen erfordern die Echtzeitverarbeitung von Sofortdaten. Eine Verzögerung von nur wenigen Millisekunden kann enorme Auswirkungen haben.
Ein ideales Werkzeug für solche Echtzeit-Anwendungsfälle wäre dasjenige, das Daten als Stream und nicht als Batch eingeben kann. Apache Flink ist dieses Echtzeit-Verarbeitungstool.