Amazon Web Services - эластичный MapReduce
Amazon Elastic MapReduce (EMR) - это веб-сервис, который предоставляет управляемую структуру для запуска таких платформ обработки данных, как Apache Hadoop, Apache Spark и Presto, простым, экономичным и безопасным способом.
Он используется для анализа данных, веб-индексации, хранения данных, финансового анализа, научного моделирования и т. Д.
Как настроить Amazon EMR?
Выполните следующие действия, чтобы настроить Amazon EMR -
Step 1 - Войдите в учетную запись AWS и выберите Amazon EMR на консоли управления.
Step 2- Создайте корзину Amazon S3 для журналов кластера и выходных данных. (Процедура подробно описана в разделе Amazon S3)
Step 3 - Запустите кластер Amazon EMR.
Ниже приведены шаги по созданию кластера и запуску его в EMR.
Используйте эту ссылку, чтобы открыть консоль Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home
Выберите создать кластер и укажите необходимые сведения на странице конфигурации кластера.
Оставьте параметры раздела Теги по умолчанию и продолжайте.
В разделе «Конфигурация программного обеспечения» установите параметры по умолчанию.
В разделе «Конфигурация файловой системы» оставьте параметры для EMRFS установленными по умолчанию. EMRFS - это реализация HDFS, которая позволяет кластерам Amazon EMR хранить данные на Amazon S3.
В разделе «Конфигурация оборудования» выберите m3.xlarge в поле типа инстанса EC2 и оставьте остальные настройки по умолчанию. Щелкните кнопку Далее.
В разделе «Безопасность и доступ» для пары ключей EC2 выберите пару из списка в поле «Пара ключей EC2» и оставьте остальные настройки по умолчанию.
В разделе Bootstrap Actions оставьте значения полей по умолчанию и нажмите кнопку «Добавить». Действия начальной загрузки - это сценарии, которые выполняются во время установки перед запуском Hadoop на каждом узле кластера.
В разделе «Шаги» оставьте настройки по умолчанию и продолжайте.
Нажмите кнопку «Создать кластер», и откроется страница «Сведения о кластере». Здесь мы должны запустить сценарий Hive как шаг кластера и использовать веб-интерфейс Hue для запроса данных.
Step 4 - Запустите сценарий Hive, выполнив следующие действия.
Откройте консоль Amazon EMR и выберите нужный кластер.
Перейдите в раздел «Шаги» и разверните его. Затем нажмите кнопку «Добавить шаг».
Откроется диалоговое окно «Добавить шаг». Заполните обязательные поля, затем нажмите кнопку «Добавить».
Чтобы просмотреть вывод сценария Hive, выполните следующие действия:
Откройте консоль Amazon S3 и выберите корзину S3, используемую для выходных данных.
Выберите выходную папку.
Запрос записывает результаты в отдельную папку. Выбратьos_requests.
Вывод сохраняется в текстовом файле. Этот файл можно скачать.
Преимущества Amazon EMR
Ниже приведены преимущества Amazon EMR:
Easy to use - Amazon EMR прост в использовании, т. Е. Легко настроить кластер, настроить Hadoop, подготовить узел и т. Д.
Reliable - Он надежен в том смысле, что повторяет невыполненные задачи и автоматически заменяет неэффективные экземпляры.
Elastic- Amazon EMR позволяет вычислять большое количество инстансов для обработки данных любого масштаба. Он легко увеличивает или уменьшает количество экземпляров.
Secure - Он автоматически настраивает параметры брандмауэра Amazon EC2, контролирует сетевой доступ к инстансам, запускает кластеры в Amazon VPC и т. Д.
Flexible- Это позволяет полный контроль над кластерами и root-доступ к каждому экземпляру. Он также позволяет устанавливать дополнительные приложения и настраивать кластер в соответствии с требованиями.
Cost-efficient- Его цену легко оценить. Он заряжается ежечасно за каждый использованный экземпляр.