Apache NiFi - Kategorisierung von Prozessoren

In diesem Kapitel werden wir die Prozesskategorisierung in Apache NiFi diskutieren.

Datenaufnahmeprozessoren

Die Prozessoren unter der Kategorie Datenaufnahme werden verwendet, um Daten in den NiFi-Datenfluss aufzunehmen. Dies ist hauptsächlich der Ausgangspunkt für jeden Datenfluss in Apache NiFi. Einige der Prozessoren, die zu diesen Kategorien gehören, sind GetFile, GetHTTP, GetFTP, GetKAFKA usw.

Routing- und Mediationsprozessoren

Routing- und Mediationsprozessoren werden verwendet, um die Flussdateien gemäß den Informationen in Attributen oder Inhalten dieser Flussdateien an verschiedene Prozessoren oder Datenflüsse weiterzuleiten. Diese Prozessoren sind auch für die Steuerung des NiFi-Datenflusses verantwortlich. Einige der Prozessoren, die zu dieser Kategorie gehören, sind RouteOnAttribute, RouteOnContent, ControlRate, RouteText usw.

Datenbankzugriffsprozessoren

Die Prozessoren dieser Kategorie "Datenbankzugriff" können Daten auswählen oder einfügen oder andere SQL-Anweisungen aus der Datenbank ausführen und vorbereiten. Diese Prozessoren verwenden hauptsächlich die Datenverbindungspool-Controller-Einstellung von Apache NiFi. Einige der Prozessoren, die zu dieser Kategorie gehören, sind ExecuteSQL, PutSQL, PutDatabaseRecord, ListDatabaseTables usw.

Attributextraktionsprozessoren

Attributextraktionsprozessoren sind dafür verantwortlich, die Verarbeitung von Flowfile-Attributen im NiFi-Datenfluss zu extrahieren, zu analysieren und zu ändern. Einige der Prozessoren, die zu dieser Kategorie gehören, sind UpdateAttribute, EvaluateJSONPath, ExtractText, AttributesToJSON usw.

Systeminteraktionsprozessoren

Systeminteraktionsprozessoren werden verwendet, um Prozesse oder Befehle in einem beliebigen Betriebssystem auszuführen. Diese Prozessoren führen auch Skripte in vielen Sprachen aus, um mit einer Vielzahl von Systemen zu interagieren. Einige der Prozessoren, die zu dieser Kategorie gehören, sind ExecuteScript, ExecuteProcess, ExecuteGroovyScript, ExecuteStreamCommand usw.

Datenumwandlungsprozessoren

Prozessoren, die zur Datentransformation gehören, können den Inhalt der Flussdateien ändern. Diese können verwendet werden, um die Daten einer Flussdatei vollständig zu ersetzen, die normalerweise verwendet wird, wenn ein Benutzer eine Flussdatei als HTTP-Body an den aufgerufenen HTTP-Prozessor senden muss. Einige der Prozessoren, die zu dieser Kategorie gehören, sind ReplaceText, JoltTransformJSON usw.

Senden von Datenprozessoren

Sendende Datenprozessoren sind im Allgemeinen die Endprozessoren in einem Datenfluss. Diese Prozessoren sind dafür verantwortlich, Daten zu speichern oder an den Zielserver zu senden. Nach erfolgreichem Speichern oder Senden der Daten lassen diese Prozessoren die Flussdatei mit Erfolgsbeziehung fallen. Einige der Prozessoren, die zu dieser Kategorie gehören, sind PutEmail, PutKafka, PutSFTP, PutFile, PutFTP usw.

Aufteilungs- und Aggregationsprozessoren

Diese Prozessoren werden verwendet, um den in einer Flussdatei vorhandenen Inhalt aufzuteilen und zusammenzuführen. Einige der Prozessoren, die zu dieser Kategorie gehören, sind SplitText, SplitJson, SplitXml, MergeContent, SplitContent usw.

HTTP-Prozessoren

Diese Prozessoren verarbeiten die HTTP- und HTTPS-Aufrufe. Einige der Prozessoren, die zu dieser Kategorie gehören, sind InvokeHTTP, PostHTTP, ListenHTTP usw.

AWS-Prozessoren

AWS-Prozessoren sind für die Interaktion mit dem Amazon Web Services-System verantwortlich. Einige der Prozessoren, die zu dieser Kategorie gehören, sind GetSQS, PutSNS, PutS3Object, FetchS3Object usw.