Amazon Web Services - эластичный MapReduce

Amazon Elastic MapReduce (EMR) - это веб-сервис, который предоставляет управляемую структуру для запуска таких платформ обработки данных, как Apache Hadoop, Apache Spark и Presto, простым, экономичным и безопасным способом.

Он используется для анализа данных, веб-индексации, хранения данных, финансового анализа, научного моделирования и т. Д.

Как настроить Amazon EMR?

Выполните следующие действия, чтобы настроить Amazon EMR -

Step 1 - Войдите в учетную запись AWS и выберите Amazon EMR на консоли управления.

Step 2- Создайте корзину Amazon S3 для журналов кластера и выходных данных. (Процедура подробно описана в разделе Amazon S3)

Step 3 - Запустите кластер Amazon EMR.

Ниже приведены шаги по созданию кластера и запуску его в EMR.

Используйте эту ссылку, чтобы открыть консоль Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home
Выберите создать кластер и укажите необходимые сведения на странице конфигурации кластера.

Оставьте параметры раздела Теги по умолчанию и продолжайте.
В разделе «Конфигурация программного обеспечения» установите параметры по умолчанию.

В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS установленными по умолчанию. EMRFS - это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные на Amazon S3.

В разделе «Конфигурация оборудования» выберите m3.xlarge в поле типа инстанса EC2 и оставьте остальные настройки по умолчанию. Щелкните кнопку Далее.

В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле «Пара ключей EC2» и оставьте остальные настройки по умолчанию.
В разделе Bootstrap Actions оставьте значения полей по умолчанию и нажмите кнопку «Добавить». Действия начальной загрузки - это сценарии, которые выполняются во время установки перед запуском Hadoop на каждом узле кластера.
В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.
Нажмите кнопку «Создать кластер», и откроется страница «Сведения о кластере». Здесь мы должны запустить сценарий Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.

Step 4 - Запустите сценарий Hive, выполнив следующие действия.

Откройте консоль Amazon EMR и выберите нужный кластер.
Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку «Добавить шаг».
Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку «Добавить».

Чтобы просмотреть вывод сценария Hive, выполните следующие действия:
- Откройте консоль Amazon S3 и выберите корзину S3, используемую для выходных данных.
- Выберите выходную папку.
- Запрос записывает результаты в отдельную папку. Выбратьos_requests.
- Вывод сохраняется в текстовом файле. Этот файл можно скачать.

Преимущества Amazon EMR

Ниже приведены преимущества Amazon EMR:

Easy to use - Amazon EMR прост в использовании, т. Е. Легко настроить кластер, настроить Hadoop, подготовить узел и т. Д.
Reliable - Он надежен в том смысле, что повторяет невыполненные задачи и автоматически заменяет неэффективные экземпляры.
Elastic- Amazon EMR позволяет вычислять большое количество инстансов для обработки данных любого масштаба. Он легко увеличивает или уменьшает количество экземпляров.
Secure - Он автоматически настраивает параметры брандмауэра Amazon EC2, контролирует сетевой доступ к инстансам, запускает кластеры в Amazon VPC и т. Д.
Flexible- Это позволяет полный контроль над кластерами и root-доступ к каждому экземпляру. Он также позволяет устанавливать дополнительные приложения и настраивать кластер в соответствии с требованиями.
Cost-efficient- Его цену легко оценить. Он заряжается ежечасно за каждый использованный экземпляр.