アマゾンウェブサービス-ElasticMapReduce

Amazon Elastic MapReduce (EMR) は、Apache Hadoop、Apache Spark、Prestoなどのデータ処理フレームワークを簡単で費用効果の高い安全な方法で実行するためのマネージドフレームワークを提供するWebサービスです。

これは、データ分析、Webインデックス作成、データウェアハウジング、財務分析、科学シミュレーションなどに使用されます。

Amazon EMRを設定する方法は？

次の手順に従って、AmazonEMRを設定します-

Step 1 − AWSアカウントにサインインし、管理コンソールでAmazonEMRを選択します。

Step 2−クラスターログと出力データ用のAmazonS3バケットを作成します。（手順はAmazon S3セクションで詳細に説明されています）

Step 3 − AmazonEMRクラスターを起動します。

以下は、クラスターを作成してEMRで起動する手順です。

このリンクを使用して、AmazonEMRコンソールを開きます- https://console.aws.amazon.com/elasticmapreduce/home
[クラスターの作成]を選択し、[クラスター構成]ページで必要な詳細を入力します。

[ファイルシステムの構成]セクションで、EMRFSのオプションをデフォルトで設定したままにします。EMRFSはHDFSの実装であり、AmazonEMRクラスターがAmazonS3にデータを保存できるようにします。

[Hardware Configuration]セクションで、[EC2インスタンスタイプ]フィールドで[m3.xlarge]を選択し、他の設定をデフォルトのままにします。[次へ]ボタンをクリックします。

[Security and Access]セクションの[EC2キーペア]で、[EC2キーペア]フィールドのリストからペアを選択し、他の設定はデフォルトのままにします。
[ブートストラップアクション]セクションで、フィールドをデフォルトで設定したままにして、[追加]ボタンをクリックします。ブートストラップアクションは、Hadoopがすべてのクラスターノードで開始される前にセットアップ中に実行されるスクリプトです。
[手順]セクションで、設定をデフォルトのままにして続行します。
[クラスターの作成]ボタンをクリックすると、[クラスターの詳細]ページが開きます。ここで、Hiveスクリプトをクラスターステップとして実行し、HueWebインターフェイスを使用してデータをクエリする必要があります。

Step 4 −次の手順を使用してHiveスクリプトを実行します。

Hiveスクリプトの出力を表示するには、次の手順を使用します-
- Amazon S3コンソールを開き、出力データに使用するS3バケットを選択します。
- 出力フォルダを選択します。
- クエリは結果を別のフォルダに書き込みます。選択するos_requests。
- 出力はテキストファイルに保存されます。このファイルはダウンロードできます。

AmazonEMRのメリットは次のとおりです-

Easy to use − Amazon EMRは使いやすく、つまり、クラスター、Hadoop構成、ノードプロビジョニングなどのセットアップが簡単です。
Reliable −失敗したタスクを再試行し、パフォーマンスの低いインスタンスを自動的に置き換えるという意味で信頼性があります。
Elastic− Amazon EMRを使用すると、大量のインスタンスを計算して、任意の規模でデータを処理できます。インスタンスの数を簡単に増減できます。
Secure − Amazon EC2ファイアウォール設定を自動的に構成し、インスタンスへのネットワークアクセスを制御し、AmazonVPCでクラスターを起動します。
Flexible−クラスターの完全な制御とすべてのインスタンスへのルートアクセスを可能にします。また、追加のアプリケーションをインストールしたり、要件に応じてクラスターをカスタマイズしたりすることもできます。
Cost-efficient−価格は簡単に見積もることができます。使用されるインスタンスごとに1時間ごとに課金されます。