Apache Flink - пакетная или обработка в реальном времени

Что касается больших данных, существует два типа обработки:

  • Пакетная обработка
  • Обработка в реальном времени

Обработка на основе данных, собранных с течением времени, называется пакетной обработкой. Например, менеджер банка хочет обработать данные за последний месяц (собранные с течением времени), чтобы узнать количество чеков, аннулированных за последний месяц.

Обработка, основанная на немедленных данных для получения мгновенного результата, называется обработкой в ​​реальном времени. Например, менеджер банка получает предупреждение о мошенничестве сразу после совершения мошеннической транзакции (мгновенный результат).

В приведенной ниже таблице перечислены различия между пакетной обработкой и обработкой в ​​реальном времени.

Пакетная обработка Обработка в реальном времени

Статические файлы

Потоки событий

Обрабатывается Периодически в минутах, часах, днях и т. Д.

Обработано немедленно

наносекунды

Прошлые данные на диске

В памяти

Пример - создание счета

Пример - оповещение о транзакции банкомата

В наши дни обработка в реальном времени широко используется в каждой организации. Для таких случаев использования, как обнаружение мошенничества, оповещения в реальном времени в здравоохранении и оповещения о сетевых атаках, требуется обработка мгновенных данных в реальном времени; задержка даже в несколько миллисекунд может иметь огромное влияние.

Идеальным инструментом для таких случаев использования в реальном времени был бы тот, который может вводить данные как поток, а не пакет. Apache Flink - это инструмент обработки в реальном времени.