ApacheFlink-はじめに

Apache Flinkは、ストリーミングデータを処理できるリアルタイム処理フレームワークです。これは、高性能でスケーラブルで正確なリアルタイムアプリケーション向けのオープンソースストリーム処理フレームワークです。真のストリーミングモデルを備えており、入力データをバッチまたはマイクロバッチとして受け取りません。

Apache Flinkは、Data Artisans社によって設立され、現在、Apache FlinkCommunityによるApacheライセンスの下で開発されています。このコミュニティには、これまでに479人を超える貢献者と15500人以上のコミットがあります。

ApacheFlinkのエコシステム

以下の図は、ApacheFlinkエコシステムのさまざまなレイヤーを示しています-

ストレージ

Apache Flinkには、データの読み取り/書き込みが可能な複数のオプションがあります。以下は基本的なストレージリストです-

  • HDFS(Hadoop分散ファイルシステム)
  • ローカルファイルシステム
  • S3
  • RDBMS(MySQL、Oracle、MS SQLなど)
  • MongoDB
  • HBase
  • Apache Kafka
  • Apache Flume

デプロイ

Apache Finkは、ローカルモード、クラスターモード、またはクラウドにデプロイできます。クラスターモードは、スタンドアロン、YARN、MESOSにすることができます。

クラウドでは、FlinkをAWSまたはGCPにデプロイできます。

カーネル

これは、分散処理、フォールトトレランス、信頼性、ネイティブの反復処理機能など​​を提供するランタイムレイヤーです。

APIとライブラリ

これは、ApacheFlinkの最上位層であり最も重要な層です。バッチ処理を処理するDatasetAPIと、ストリーム処理を処理するDatastreamAPIがあります。Flink ML(機械学習用)、Gelly(グラフ処理用)、SQL用テーブルなどの他のライブラリがあります。このレイヤーは、ApacheFlinkにさまざまな機能を提供します。