Amazon Web Services - эластичный MapReduce

Amazon Elastic MapReduce (EMR) - это веб-сервис, который предоставляет управляемую структуру для запуска таких платформ обработки данных, как Apache Hadoop, Apache Spark и Presto, простым, экономичным и безопасным способом.

Он используется для анализа данных, веб-индексации, хранения данных, финансового анализа, научного моделирования и т. Д.

Как настроить Amazon EMR?

Выполните следующие действия, чтобы настроить Amazon EMR -

Step 1 - Войдите в учетную запись AWS и выберите Amazon EMR на консоли управления.

Step 2- Создайте корзину Amazon S3 для журналов кластера и выходных данных. (Процедура подробно описана в разделе Amazon S3)

Step 3 - Запустите кластер Amazon EMR.

Ниже приведены шаги по созданию кластера и запуску его в EMR.

  • Используйте эту ссылку, чтобы открыть консоль Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home

  • Выберите создать кластер и укажите необходимые сведения на странице конфигурации кластера.

  • Оставьте параметры раздела Теги по умолчанию и продолжайте.

  • В разделе «Конфигурация программного обеспечения» установите параметры по умолчанию.

  • В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS установленными по умолчанию. EMRFS - это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные на Amazon S3.

  • В разделе «Конфигурация оборудования» выберите m3.xlarge в поле типа инстанса EC2 и оставьте остальные настройки по умолчанию. Щелкните кнопку Далее.

  • В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле «Пара ключей EC2» и оставьте остальные настройки по умолчанию.

  • В разделе Bootstrap Actions оставьте значения полей по умолчанию и нажмите кнопку «Добавить». Действия начальной загрузки - это сценарии, которые выполняются во время установки перед запуском Hadoop на каждом узле кластера.

  • В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.

  • Нажмите кнопку «Создать кластер», и откроется страница «Сведения о кластере». Здесь мы должны запустить сценарий Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.

Step 4 - Запустите сценарий Hive, выполнив следующие действия.

  • Откройте консоль Amazon EMR и выберите нужный кластер.

  • Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку «Добавить шаг».

  • Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку «Добавить».

  • Чтобы просмотреть вывод сценария Hive, выполните следующие действия:

    • Откройте консоль Amazon S3 и выберите корзину S3, используемую для выходных данных.

    • Выберите выходную папку.

    • Запрос записывает результаты в отдельную папку. Выбратьos_requests.

    • Вывод сохраняется в текстовом файле. Этот файл можно скачать.

Преимущества Amazon EMR

Ниже приведены преимущества Amazon EMR:

  • Easy to use - Amazon EMR прост в использовании, т. Е. Легко настроить кластер, настроить Hadoop, подготовить узел и т. Д.

  • Reliable - Он надежен в том смысле, что повторяет невыполненные задачи и автоматически заменяет неэффективные экземпляры.

  • Elastic- Amazon EMR позволяет вычислять большое количество инстансов для обработки данных любого масштаба. Он легко увеличивает или уменьшает количество экземпляров.

  • Secure - Он автоматически настраивает параметры брандмауэра Amazon EC2, контролирует сетевой доступ к инстансам, запускает кластеры в Amazon VPC и т. Д.

  • Flexible- Это позволяет полный контроль над кластерами и root-доступ к каждому экземпляру. Он также позволяет устанавливать дополнительные приложения и настраивать кластер в соответствии с требованиями.

  • Cost-efficient- Его цену легко оценить. Он заряжается ежечасно за каждый использованный экземпляр.