Apache Kafka - Введение

В больших данных используется огромный объем данных. Что касается данных, у нас есть две основные проблемы: первая задача - как собрать большой объем данных, а вторая - проанализировать собранные данные. Чтобы преодолеть эти проблемы, вам понадобится система обмена сообщениями.

Kafka разработан для распределенных систем с высокой пропускной способностью. Kafka, как правило, очень хорошо работает как замена более традиционному брокеру сообщений. По сравнению с другими системами обмена сообщениями, Kafka имеет лучшую пропускную способность, встроенное разделение, репликацию и отказоустойчивость, что делает его подходящим для крупномасштабных приложений обработки сообщений.

Что такое система обмена сообщениями?

Система обмена сообщениями отвечает за передачу данных из одного приложения в другое, поэтому приложения могут сосредоточиться на данных, но не беспокоиться о том, как ими поделиться. Распределенный обмен сообщениями основан на концепции надежной организации очереди сообщений. Сообщения ставятся в очередь асинхронно между клиентскими приложениями и системой обмена сообщениями. Доступны два типа шаблонов обмена сообщениями: один - точка-точка, а другой - система обмена сообщениями публикация-подписка (pub-sub). Большинство шаблонов обмена сообщениями следуютpub-sub.

Система обмена сообщениями точка-точка

В системе точка-точка сообщения сохраняются в очереди. Один или несколько потребителей могут использовать сообщения в очереди, но конкретное сообщение может быть использовано максимум одним потребителем. Как только потребитель читает сообщение в очереди, оно исчезает из этой очереди. Типичным примером этой системы является система обработки заказов, в которой каждый заказ будет обрабатываться одним обработчиком заказов, но одновременно могут работать и несколько обработчиков заказов. На следующей схеме изображена структура.

Система обмена сообщениями публикации и подписки

В системе публикации-подписки сообщения сохраняются в теме. В отличие от двухточечной системы, потребители могут подписаться на одну или несколько тем и использовать все сообщения в этой теме. В системе публикации-подписки производители сообщений называются издателями, а потребители сообщений - подписчиками. Примером из реальной жизни является Dish TV, на котором публикуются различные каналы, такие как спорт, фильмы, музыка и т. Д., И каждый может подписаться на свой собственный набор каналов и получать их, когда доступны каналы, на которые они подписаны.

Что такое Кафка?

Apache Kafka - это распределенная система обмена сообщениями "публикация-подписка" и надежная очередь, которая может обрабатывать большой объем данных и позволяет передавать сообщения от одной конечной точки к другой. Kafka подходит как для автономного, так и для онлайн-потребления сообщений. Сообщения Kafka сохраняются на диске и реплицируются в кластере для предотвращения потери данных. Kafka построен на основе службы синхронизации ZooKeeper. Он очень хорошо интегрируется с Apache Storm и Spark для анализа потоковых данных в реальном времени.

Льготы

Ниже приведены несколько преимуществ Kafka:

  • Reliability - Kafka распределен, разделен, реплицирован и отказоустойчив.

  • Scalability - Система обмена сообщениями Kafka легко масштабируется без простоев.

  • Durability- Kafka использует журнал распределенных фиксаций, что означает, что сообщения сохраняются на диске как можно быстрее, следовательно, они надежны.

  • Performance- Kafka имеет высокую пропускную способность как для публикации, так и для подписки на сообщения. Он поддерживает стабильную производительность, даже если хранится много ТБ сообщений.

Kafka работает очень быстро и гарантирует нулевое время простоя и нулевую потерю данных.

Случаи использования

Kafka можно использовать во многих случаях использования. Некоторые из них перечислены ниже -

  • Metrics- Кафка часто используется для оперативного мониторинга данных. Это включает агрегирование статистики из распределенных приложений для создания централизованных потоков операционных данных.

  • Log Aggregation Solution - Kafka можно использовать во всей организации для сбора журналов из нескольких сервисов и предоставления их в стандартном формате нескольким потребителям.

  • Stream Processing- Популярные платформы, такие как Storm и Spark Streaming, считывают данные из темы, обрабатывают их и записывают обработанные данные в новую тему, где они становятся доступными для пользователей и приложений. Высокая надежность Kafka также очень полезна в контексте потоковой обработки.

Потребность в Кафке

Kafka - это единая платформа для обработки всех потоков данных в реальном времени. Kafka поддерживает доставку сообщений с малой задержкой и гарантирует отказоустойчивость при сбоях машины. Он способен обслуживать большое количество разнообразных потребителей. Kafka работает очень быстро, выполняет 2 миллиона операций записи в секунду. Kafka сохраняет все данные на диск, что по сути означает, что все записи идут в кеш страниц ОС (ОЗУ). Это делает очень эффективным перенос данных из кеша страниц в сетевой сокет.