ApacheFlink-バッチ処理とリアルタイム処理

ビッグデータに関しては、2種類の処理があります-

  • バッチ処理
  • リアルタイム処理

時間の経過とともに収集されたデータに基づく処理は、バッチ処理と呼ばれます。たとえば、銀行のマネージャーは、過去1か月のデータ(時間の経過とともに収集された)を処理して、過去1か月にキャンセルされた小切手の数を知りたいとします。

即時データに基づく即時結果の処理は、リアルタイム処理と呼ばれます。たとえば、銀行のマネージャーは、不正取引(即時の結果)が発生した直後に不正アラートを受け取ります。

以下の表に、バッチ処理とリアルタイム処理の違いを示します。

バッチ処理 リアルタイム処理

静的ファイル

イベントストリーム

分、時間、日などで定期的に処理されます。

すぐに処理

ナノ秒

ディスクストレージ上の過去のデータ

インメモリストレージ

例-請求書の生成

例-ATMトランザクションアラート

最近では、すべての組織でリアルタイム処理が多く使用されています。不正検出、ヘルスケアでのリアルタイムアラート、ネットワーク攻撃アラートなどのユースケースでは、インスタントデータのリアルタイム処理が必要です。数ミリ秒の遅延でも大きな影響を与える可能性があります。

このようなリアルタイムのユースケースに理想的なツールは、データをバッチではなくストリームとして入力できるツールです。Apache Flinkは、そのリアルタイム処理ツールです。