Apache Flink - przetwarzanie wsadowe vs przetwarzanie w czasie rzeczywistym

Jeśli chodzi o Big Data, istnieją dwa rodzaje przetwarzania -

  • Przetwarzanie wsadowe
  • Przetwarzanie w czasie rzeczywistym

Przetwarzanie na podstawie danych gromadzonych w czasie nazywa się przetwarzaniem wsadowym. Na przykład menedżer banku chce przetworzyć dane z ostatniego miesiąca (zebrane w czasie), aby poznać liczbę czeków, które zostały anulowane w ciągu ostatniego miesiąca.

Przetwarzanie oparte na natychmiastowych danych w celu uzyskania natychmiastowych wyników nazywa się przetwarzaniem w czasie rzeczywistym. Na przykład menedżer banku otrzymujący alert o oszustwie natychmiast po wystąpieniu oszustwa (natychmiastowy wynik).

Poniższa tabela przedstawia różnice między przetwarzaniem wsadowym i przetwarzaniem w czasie rzeczywistym -

Przetwarzanie wsadowe Przetwarzanie w czasie rzeczywistym

Pliki statyczne

Strumienie wydarzeń

Przetwarzane okresowo w minutach, godzinach, dniach itp.

Przetwarzane natychmiast

nanosekund

Wcześniejsze dane na dysku

W pamięci

Przykład - generowanie rachunku

Przykład - alert transakcji w bankomacie

Obecnie każda organizacja często wykorzystuje przetwarzanie w czasie rzeczywistym. Przypadki użycia, takie jak wykrywanie oszustw, alerty w czasie rzeczywistym w służbie zdrowia i ostrzeżenia o atakach sieciowych, wymagają natychmiastowego przetwarzania danych w czasie rzeczywistym; opóźnienie nawet kilku milisekund może mieć ogromny wpływ.

Idealnym narzędziem do takich przypadków użycia w czasie rzeczywistym byłoby to, które może wprowadzać dane jako strumień, a nie wsad. Apache Flink to narzędzie do przetwarzania w czasie rzeczywistym.