MapReduce - Введение
MapReduce - это модель программирования для написания приложений, которые могут обрабатывать большие данные параллельно на нескольких узлах. MapReduce предоставляет аналитические возможности для анализа огромных объемов сложных данных.
Что такое большие данные?
Большие данные - это набор больших наборов данных, которые невозможно обработать с помощью традиционных вычислительных технологий. Например, объем данных, которые необходимы Facebook или Youtube для ежедневного сбора и обработки, может подпадать под категорию больших данных. Однако большие данные - это не только масштаб и объем, они также включают один или несколько из следующих аспектов - скорость, разнообразие, объем и сложность.
Почему именно MapReduce?
Традиционные корпоративные системы обычно имеют централизованный сервер для хранения и обработки данных. На следующем рисунке схематично изображена традиционная корпоративная система. Традиционная модель, безусловно, не подходит для обработки огромных объемов масштабируемых данных и не может быть приспособлена стандартными серверами баз данных. Более того, централизованная система создает слишком много узких мест при одновременной обработке нескольких файлов.
Google решил эту проблему с узким местом с помощью алгоритма MapReduce. MapReduce делит задачу на небольшие части и назначает их множеству компьютеров. Позже результаты собираются в одном месте и объединяются для формирования набора данных результатов.
Как работает MapReduce?
Алгоритм MapReduce содержит две важные задачи, а именно Map и Reduce.
Задача «Карта» принимает набор данных и преобразует его в другой набор данных, где отдельные элементы разбиваются на кортежи (пары ключ-значение).
Задача Reduce принимает выходные данные Map в качестве входных данных и объединяет эти кортежи данных (пары ключ-значение) в меньший набор кортежей.
Задача сокращения всегда выполняется после задания карты.
Давайте теперь внимательно рассмотрим каждую из фаз и попытаемся понять их значение.
Input Phase - Здесь у нас есть средство чтения записей, которое переводит каждую запись во входном файле и отправляет проанализированные данные модулю сопоставления в виде пар ключ-значение.
Map - Карта - это определяемая пользователем функция, которая принимает серию пар ключ-значение и обрабатывает каждую из них для создания нуля или более пар ключ-значение.
Intermediate Keys - Эти пары ключ-значение, сгенерированные преобразователем, известны как промежуточные ключи.
Combiner- Комбайнер - это тип локального редуктора, который группирует похожие данные из фазы карты в идентифицируемые наборы. Он принимает промежуточные ключи от сопоставителя в качестве входных данных и применяет определенный пользователем код для агрегирования значений в небольшой области одного сопоставителя. Он не является частью основного алгоритма MapReduce; это необязательно.
Shuffle and Sort- Задача «Редуктор» начинается с этапа «Перемешать и отсортировать». Он загружает сгруппированные пары ключ-значение на локальный компьютер, на котором работает Reducer. Отдельные пары "ключ-значение" сортируются по ключу в более крупный список данных. Список данных группирует эквивалентные ключи вместе, чтобы их значения можно было легко повторять в задаче Reducer.
Reducer- Редуктор принимает сгруппированные парные данные "ключ-значение" в качестве входных данных и запускает функцию редуктора для каждого из них. Здесь данные могут быть агрегированы, отфильтрованы и объединены различными способами, и для этого требуется широкий диапазон обработки. По окончании выполнения на последнем этапе выдается ноль или более пар "ключ-значение".
Output Phase - На этапе вывода у нас есть средство форматирования вывода, которое переводит окончательные пары ключ-значение из функции Reducer и записывает их в файл с помощью средства записи.
Давайте попробуем разобраться в двух задачах Map & f Reduce с помощью небольшой диаграммы -
MapReduce-Example
Давайте рассмотрим пример из реальной жизни, чтобы понять возможности MapReduce. Twitter получает около 500 миллионов твитов в день, что составляет почти 3000 твитов в секунду. На следующем рисунке показано, как Tweeter управляет своими твитами с помощью MapReduce.
Как показано на рисунке, алгоритм MapReduce выполняет следующие действия:
Tokenize - Токенизирует твиты в карты токенов и записывает их как пары ключ-значение.
Filter - Фильтрует нежелательные слова из карт токенов и записывает отфильтрованные карты в виде пар ключ-значение.
Count - Создает счетчик токенов на слово.
Aggregate Counters - Подготавливает совокупность одинаковых значений счетчиков в небольшие управляемые единицы.