Amazon Web Services - Datenpipeline

AWS Data Pipeline ist ein Webdienst, der es Benutzern erleichtern soll, Daten, die auf mehrere AWS-Dienste verteilt sind, zu integrieren und von einem einzigen Standort aus zu analysieren.

Mithilfe der AWS-Datenpipeline kann auf Daten aus der Quelle zugegriffen, verarbeitet und anschließend die Ergebnisse effizient an die jeweiligen AWS-Services übertragen werden.

Wie richte ich eine Datenpipeline ein?

Im Folgenden finden Sie die Schritte zum Einrichten der Datenpipeline:

Step 1 - Erstellen Sie die Pipeline mit den folgenden Schritten.

Melden Sie sich bei AWS an.
Verwenden Sie diesen Link, um die AWS Data Pipeline-Konsole zu öffnen - https://console.aws.amazon.com/datapipeline/
Wählen Sie die Region in der Navigationsleiste aus.
Klicken Sie auf die Schaltfläche Neue Pipeline erstellen.
Füllen Sie die erforderlichen Angaben in die entsprechenden Felder.
- Wählen Sie im Feld Quelle die Option Mit einer Vorlage erstellen und dann diese Vorlage aus - Erste Schritte mit ShellCommandActivity.

Der Abschnitt Parameter wird nur geöffnet, wenn die Vorlage ausgewählt ist. Lassen Sie den S3-Eingabeordner und den Shell-Befehl mit ihren Standardwerten ausgeführt. Klicken Sie auf das Ordnersymbol neben dem S3-Ausgabeordner und wählen Sie die Buckets aus.
Übernehmen Sie im Zeitplan die Werte als Standard.
Lassen Sie in der Pipeline-Konfiguration die Protokollierung aktiviert. Klicken Sie auf das Ordnersymbol unter S3-Speicherort für Protokolle und wählen Sie die Buckets aus.
Belassen Sie unter Sicherheit / Zugriff die Werte für IAM-Rollen als Standard.
Klicken Sie auf die Schaltfläche Aktivieren.

Wie lösche ich eine Pipeline?

Durch Löschen der Pipeline werden auch alle zugehörigen Objekte gelöscht.

Step 1 - Wählen Sie die Pipeline aus der Pipelines-Liste aus.

Step 2 - Klicken Sie auf die Schaltfläche Aktionen und wählen Sie Löschen.

Step 3- Ein Bestätigungsfenster wird geöffnet. Klicken Sie auf Löschen.

Funktionen der AWS Data Pipeline

Simple and cost-efficient- Die Drag-and-Drop-Funktionen erleichtern das Erstellen einer Pipeline auf der Konsole. Der visuelle Pipeline-Ersteller bietet eine Bibliothek mit Pipeline-Vorlagen. Diese Vorlagen erleichtern das Erstellen von Pipelines für Aufgaben wie das Verarbeiten von Protokolldateien, das Archivieren von Daten in Amazon S3 usw.

Reliable- Die Infrastruktur ist für fehlertolerante Ausführungsaktivitäten ausgelegt. Wenn Fehler in der Aktivitätslogik oder in den Datenquellen auftreten, wiederholt AWS Data Pipeline die Aktivität automatisch. Wenn der Fehler weiterhin besteht, wird eine Fehlerbenachrichtigung gesendet. Wir können diese Benachrichtigungen sogar für Situationen wie erfolgreiche Läufe, Fehler, Verzögerungen bei Aktivitäten usw. konfigurieren.

Flexible - AWS Data Pipeline bietet verschiedene Funktionen wie Zeitplanung, Nachverfolgung, Fehlerbehandlung usw. Es kann so konfiguriert werden, dass Aktionen wie das Ausführen von Amazon EMR-Jobs, das direkte Ausführen von SQL-Abfragen für Datenbanken, das Ausführen von benutzerdefinierten Anwendungen, die auf Amazon EC2 ausgeführt werden usw. ausgeführt werden.