Amazon Web Services - Elastic MapReduce
Amazon Elastic MapReduce (EMR) ist ein Webdienst, der ein verwaltetes Framework bereitstellt, um Datenverarbeitungs-Frameworks wie Apache Hadoop, Apache Spark und Presto auf einfache, kostengünstige und sichere Weise auszuführen.
Es wird für Datenanalyse, Web-Indizierung, Data Warehousing, Finanzanalyse, wissenschaftliche Simulation usw. verwendet.
Wie richte ich Amazon EMR ein?
Befolgen Sie diese Schritte, um Amazon EMR einzurichten -
Step 1 - Melden Sie sich bei einem AWS-Konto an und wählen Sie Amazon EMR in der Verwaltungskonsole aus.
Step 2- Erstellen Sie einen Amazon S3-Bucket für Clusterprotokolle und Ausgabedaten. (Die Vorgehensweise wird im Abschnitt zu Amazon S3 ausführlich erläutert.)
Step 3 - Starten Sie den Amazon EMR-Cluster.
Im Folgenden finden Sie die Schritte zum Erstellen eines Clusters und zum Starten von EMR.
Verwenden Sie diesen Link, um die Amazon EMR-Konsole zu öffnen. https://console.aws.amazon.com/elasticmapreduce/home
Wählen Sie Cluster erstellen und geben Sie die erforderlichen Details auf der Seite Clusterkonfiguration ein.
Belassen Sie die Optionen des Abschnitts "Tags" als Standard und fahren Sie fort.
Stellen Sie im Abschnitt Softwarekonfiguration die Optionen als Standard ein.
Lassen Sie im Abschnitt Dateisystemkonfiguration die standardmäßig festgelegten Optionen für EMRFS. EMRFS ist eine Implementierung von HDFS und ermöglicht es Amazon EMR-Clustern, Daten in Amazon S3 zu speichern.
Wählen Sie im Abschnitt Hardwarekonfiguration im Feld EC2-Instanztyp die Option m3.xlarge aus, und belassen Sie andere Einstellungen als Standardeinstellungen. Klicken Sie auf die Schaltfläche Weiter.
Wählen Sie im Abschnitt Sicherheit und Zugriff für das EC2-Schlüsselpaar das Paar aus der Liste im Feld EC2-Schlüsselpaar aus und belassen Sie die anderen Einstellungen als Standardeinstellungen.
Lassen Sie im Abschnitt Bootstrap-Aktionen die standardmäßig festgelegten Felder und klicken Sie auf die Schaltfläche Hinzufügen. Bootstrap-Aktionen sind Skripts, die während des Setups ausgeführt werden, bevor Hadoop auf jedem Clusterknoten gestartet wird.
Übernehmen Sie im Abschnitt Schritte die Standardeinstellungen und fahren Sie fort.
Klicken Sie auf die Schaltfläche Cluster erstellen, und die Seite Clusterdetails wird geöffnet. Hier sollten wir das Hive-Skript als Clusterschritt ausführen und die Daten über die Hue-Weboberfläche abfragen.
Step 4 - Führen Sie das Hive-Skript mit den folgenden Schritten aus.
Öffnen Sie die Amazon EMR-Konsole und wählen Sie den gewünschten Cluster aus.
Gehen Sie zum Abschnitt Schritte und erweitern Sie ihn. Klicken Sie dann auf die Schaltfläche Schritt hinzufügen.
Das Dialogfeld Schritt hinzufügen wird geöffnet. Füllen Sie die erforderlichen Felder aus und klicken Sie auf die Schaltfläche Hinzufügen.
Führen Sie die folgenden Schritte aus, um die Ausgabe des Hive-Skripts anzuzeigen:
Öffnen Sie die Amazon S3-Konsole und wählen Sie den für die Ausgabedaten verwendeten S3-Bucket aus.
Wählen Sie den Ausgabeordner.
Die Abfrage schreibt die Ergebnisse in einen separaten Ordner. Wählenos_requests.
Die Ausgabe wird in einer Textdatei gespeichert. Diese Datei kann heruntergeladen werden.
Vorteile von Amazon EMR
Im Folgenden sind die Vorteile von Amazon EMR aufgeführt:
Easy to use - Amazon EMR ist einfach zu verwenden, dh es ist einfach, Cluster, Hadoop-Konfiguration, Knotenbereitstellung usw. einzurichten.
Reliable - Es ist zuverlässig in dem Sinne, dass es fehlgeschlagene Aufgaben wiederholt und Instanzen mit schlechter Leistung automatisch ersetzt.
Elastic- Mit Amazon EMR können Sie eine große Anzahl von Instanzen berechnen, um Daten in jedem Maßstab zu verarbeiten. Es erhöht oder verringert leicht die Anzahl der Instanzen.
Secure - Es konfiguriert automatisch die Amazon EC2-Firewall-Einstellungen, steuert den Netzwerkzugriff auf Instanzen, startet Cluster in einer Amazon VPC usw.
Flexible- Es ermöglicht die vollständige Kontrolle über die Cluster und den Root-Zugriff auf jede Instanz. Es ermöglicht auch die Installation zusätzlicher Anwendungen und passt Ihren Cluster gemäß den Anforderungen an.
Cost-efficient- Die Preise sind leicht abzuschätzen. Es wird stündlich für jede verwendete Instanz berechnet.