ApacheFlink-クイックガイド
過去10年間のデータの進歩は非常に大きなものでした。これにより、「ビッグデータ」という用語が生まれました。ビッグデータと呼ぶことができる固定サイズのデータはありません。従来のシステム(RDBMS)で処理できないデータはすべてビッグデータです。このビッグデータは、構造化、半構造化、または非構造化形式にすることができます。当初、データには3つの次元がありました。ボリューム、速度、多様性です。寸法は3つのVだけを超えています。他のV-真実性、妥当性、脆弱性、価値、変動性などを追加しました。
ビッグデータは、データの保存と処理に役立つ複数のツールとフレームワークの出現につながりました。Hadoop、Spark、Hive、Pig、Storm、Zookeeperなどの人気のあるビッグデータフレームワークがいくつかあります。また、ヘルスケア、金融、小売、Eコマースなどの複数のドメインで次世代製品を作成する機会も与えられました。
多国籍企業であろうと新興企業であろうと、誰もがビッグデータを活用してデータを保存および処理し、より賢明な意思決定を行っています。
ビッグデータに関しては、2種類の処理があります-
- バッチ処理
- リアルタイム処理
時間の経過とともに収集されたデータに基づく処理は、バッチ処理と呼ばれます。たとえば、銀行のマネージャーは、過去1か月のデータ(時間の経過とともに収集された)を処理して、過去1か月にキャンセルされた小切手の数を知りたいとします。
即時データに基づく即時結果の処理は、リアルタイム処理と呼ばれます。たとえば、銀行のマネージャーは、不正取引(即時の結果)が発生した直後に不正アラートを受け取ります。
以下の表に、バッチ処理とリアルタイム処理の違いを示します。
バッチ処理 | リアルタイム処理 |
---|---|
静的ファイル |
イベントストリーム |
分、時間、日などで定期的に処理されます。 |
すぐに処理 ナノ秒 |
ディスクストレージ上の過去のデータ |
インメモリストレージ |
例-請求書の生成 |
例-ATMトランザクションアラート |
最近では、すべての組織でリアルタイム処理が多く使用されています。不正検出、ヘルスケアでのリアルタイムアラート、ネットワーク攻撃アラートなどのユースケースでは、インスタントデータのリアルタイム処理が必要です。数ミリ秒の遅延でも大きな影響を与える可能性があります。
このようなリアルタイムのユースケースに理想的なツールは、データをバッチではなくストリームとして入力できるツールです。Apache Flinkは、そのリアルタイム処理ツールです。
Apache Flinkは、ストリーミングデータを処理できるリアルタイム処理フレームワークです。これは、高性能でスケーラブルで正確なリアルタイムアプリケーション向けのオープンソースストリーム処理フレームワークです。真のストリーミングモデルを備えており、入力データをバッチまたはマイクロバッチとして受け取りません。
Apache Flinkは、Data Artisans社によって設立され、現在、Apache FlinkCommunityによるApacheライセンスの下で開発されています。このコミュニティには、これまでに479人を超える貢献者と15500人以上のコミットがあります。
ApacheFlinkのエコシステム
以下の図は、ApacheFlinkエコシステムのさまざまなレイヤーを示しています-
ストレージ
Apache Flinkには、データの読み取り/書き込みが可能な複数のオプションがあります。以下は基本的なストレージリストです-
- HDFS(Hadoop分散ファイルシステム)
- ローカルファイルシステム
- S3
- RDBMS(MySQL、Oracle、MS SQLなど)
- MongoDB
- HBase
- Apache Kafka
- Apache Flume
デプロイ
Apache Finkは、ローカルモード、クラスターモード、またはクラウドにデプロイできます。クラスターモードは、スタンドアロン、YARN、MESOSにすることができます。
クラウドでは、FlinkをAWSまたはGCPにデプロイできます。
カーネル
これは、分散処理、フォールトトレランス、信頼性、ネイティブの反復処理機能などを提供するランタイムレイヤーです。
APIとライブラリ
これは、ApacheFlinkの最上位層であり最も重要な層です。バッチ処理を処理するDatasetAPIと、ストリーム処理を処理するDatastreamAPIがあります。Flink ML(機械学習用)、Gelly(グラフ処理用)、SQL用テーブルなどの他のライブラリがあります。このレイヤーは、ApacheFlinkにさまざまな機能を提供します。
ApacheFlinkはKappaアーキテクチャで動作します。Kappaアーキテクチャには単一のプロセッサ(ストリーム)があり、すべての入力をストリームとして扱い、ストリーミングエンジンがデータをリアルタイムで処理します。カッパアーキテクチャのバッチデータは、ストリーミングの特殊なケースです。
次の図は、 Apache Flink Architecture。
Kappaアーキテクチャの重要なアイデアは、単一のストリーム処理エンジンを介してバッチデータとリアルタイムデータの両方を処理することです。
ほとんどのビッグデータフレームワークは、バッチデータとストリーミングデータ用に別々のプロセッサを備えたラムダアーキテクチャで動作します。Lambdaアーキテクチャでは、バッチビューとストリームビューに別々のコードベースがあります。クエリを実行して結果を取得するには、コードベースをマージする必要があります。個別のコードベース/ビューを維持せずにそれらをマージするのは面倒ですが、Kappaアーキテクチャはビューが1つしかないため、この問題を解決します。リアルタイムであるため、コードベースをマージする必要はありません。
これは、KappaアーキテクチャがLambdaアーキテクチャに取って代わることを意味するのではなく、どのアーキテクチャが望ましいかを決定するユースケースとアプリケーションに完全に依存します。
次の図は、ApacheFlinkジョブ実行アーキテクチャを示しています。
プログラム
これは、Flinkクラスターで実行するコードの一部です。
クライアント
コード(プログラム)を取得してジョブデータフローグラフを作成し、それをJobManagerに渡す役割を果たします。また、ジョブの結果を取得します。
JobManager
クライアントからジョブデータフローグラフを受け取った後、実行グラフを作成する責任があります。クラスター内のTaskManagerにジョブを割り当て、ジョブの実行を監視します。
タスクマネージャー
JobManagerによって割り当てられたすべてのタスクを実行する責任があります。すべてのTaskManagerは、指定された並列処理で別々のスロットでタスクを実行します。タスクのステータスをJobManagerに送信する責任があります。
ApacheFlinkの機能
ApacheFlinkの機能は次のとおりです-
バッチプログラムとストリームプログラムの両方を実行できるストリーミングプロセッサを搭載しています。
非常に高速でデータを処理できます。
Java、Scala、Pythonで利用可能なAPI。
プログラマーが非常に使いやすい、すべての一般的な操作用のAPIを提供します。
低遅延(ナノ秒)および高スループットでデータを処理します。
そのフォールトトレラント。ノード、アプリケーション、またはハードウェアに障害が発生しても、クラスターには影響しません。
Apache Hadoop、Apache MapReduce、Apache Spark、HBase、その他のビッグデータツールと簡単に統合できます。
インメモリ管理は、計算を改善するためにカスタマイズできます。
これは非常にスケーラブルであり、クラスター内の数千のノードまで拡張できます。
Apache Flinkでは、ウィンドウ処理は非常に柔軟です。
グラフ処理、機械学習、複合イベント処理ライブラリを提供します。
以下は、ApacheFlinkをダウンロードして動作させるためのシステム要件です。
推奨されるオペレーティングシステム
- Microsoft Windows 10
- Ubuntu 16.04 LTS
- Apple macOS 10.13 / High Sierra
メモリ要件
- メモリ-最小4GB、推奨8 GB
- ストレージスペース-30GB
Note − Java 8は、環境変数がすでに設定された状態で使用可能である必要があります。
Apache Flinkのセットアップ/インストールを開始する前に、システムにJava8がインストールされているかどうかを確認しましょう。
Java-バージョン
次に、ApacheFlinkをダウンロードします。
wget http://mirrors.estointernet.in/apache/flink/flink-1.7.1/flink-1.7.1-bin-scala_2.11.tgz
次に、tarファイルを解凍します。
tar -xzf flink-1.7.1-bin-scala_2.11.tgz
Flinkのホームディレクトリに移動します。
cd flink-1.7.1/
Flinkクラスターを開始します。
./bin/start-cluster.sh
Mozillaブラウザを開き、以下のURLに移動すると、FlinkWebダッシュボードが開きます。
http://localhost:8081
これは、ApacheFlinkダッシュボードのユーザーインターフェイスがどのように見えるかです。
これで、Flinkクラスターが稼働しています。
Flinkには、開発者がバッチデータとリアルタイムデータの両方で変換を実行できるAPIの豊富なセットがあります。さまざまな変換には、マッピング、フィルタリング、並べ替え、結合、グループ化、および集約が含まれます。Apache Flinkによるこれらの変換は、分散データに対して実行されます。ApacheFlinkが提供するさまざまなAPIについて説明しましょう。
データセットAPI
Apache FlinkのデータセットAPIは、一定期間にわたってデータに対してバッチ操作を実行するために使用されます。このAPIは、Java、Scala、Pythonで使用できます。フィルタリング、マッピング、集約、結合、グループ化など、さまざまな種類の変換をデータセットに適用できます。
データセットは、ローカルファイルなどのソースから、または特定のソースからファイルを読み取ることによって作成され、結果データは、分散ファイルやコマンドラインターミナルなどのさまざまなシンクに書き込むことができます。このAPIは、JavaとScalaの両方のプログラミング言語でサポートされています。
これがデータセットAPIのワードカウントプログラムです-
public class WordCountProg {
public static void main(String[] args) throws Exception {
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> text = env.fromElements(
"Hello",
"My Dataset API Flink Program");
DataSet<Tuple2<String, Integer>> wordCounts = text
.flatMap(new LineSplitter())
.groupBy(0)
.sum(1);
wordCounts.print();
}
public static class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String line, Collector<Tuple2<String, Integer>> out) {
for (String word : line.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
DataStream API
このAPIは、連続ストリームでデータを処理するために使用されます。ストリームデータのフィルタリング、マッピング、ウィンドウ処理、集計などのさまざまな操作を実行できます。このデータストリームには、メッセージキュー、ファイル、ソケットストリームなどのさまざまなソースがあり、結果データはコマンドラインターミナルなどのさまざまなシンクに書き込むことができます。JavaとScalaの両方のプログラミング言語がこのAPIをサポートしています。
これは、DataStream APIのストリーミングワードカウントプログラムです。ここでは、ワードカウントの連続ストリームがあり、データは2番目のウィンドウにグループ化されています。
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;
public class WindowWordCountProg {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple2<String, Integer>> dataStream = env
.socketTextStream("localhost", 9999)
.flatMap(new Splitter())
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);
dataStream.print();
env.execute("Streaming WordCount Example");
}
public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
for (String word: sentence.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
テーブルAPIは、SQLのような式言語を使用するリレーショナルAPIです。このAPIは、バッチ処理とストリーム処理の両方を実行できます。JavaとScalaのデータセットおよびデータストリームAPIを組み込むことができます。既存のデータセットとデータストリーム、または外部データソースからテーブルを作成できます。このリレーショナルAPIを介して、結合、集約、選択、フィルタリングなどの操作を実行できます。入力がバッチであろうとストリームであろうと、クエリのセマンティクスは同じままです。
これがサンプルのTableAPIプログラムです-
// for batch programs use ExecutionEnvironment instead of StreamExecutionEnvironment
val env = StreamExecutionEnvironment.getExecutionEnvironment
// create a TableEnvironment
val tableEnv = TableEnvironment.getTableEnvironment(env)
// register a Table
tableEnv.registerTable("table1", ...) // or
tableEnv.registerTableSource("table2", ...) // or
tableEnv.registerExternalCatalog("extCat", ...)
// register an output Table
tableEnv.registerTableSink("outputTable", ...);
// create a Table from a Table API query
val tapiResult = tableEnv.scan("table1").select(...)
// Create a Table from a SQL query
val sqlResult = tableEnv.sqlQuery("SELECT ... FROM table2 ...")
// emit a Table API result Table to a TableSink, same for SQL result
tapiResult.insertInto("outputTable")
// execute
env.execute()
この章では、Flinkアプリケーションを作成する方法を学習します。
Eclipse IDEを開き、「新規プロジェクト」をクリックして「Javaプロジェクト」を選択します。
プロジェクト名を付けて、[完了]をクリックします。
次のスクリーンショットに示すように、[完了]をクリックします。
次に、右クリックします src 新規>>クラスに移動します。
クラス名を付けて、[完了]をクリックします。
以下のコードをコピーしてエディターに貼り付けます。
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.util.Collector;
public class WordCount {
// *************************************************************************
// PROGRAM
// *************************************************************************
public static void main(String[] args) throws Exception {
final ParameterTool params = ParameterTool.fromArgs(args);
// set up the execution environment
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
// make parameters available in the web interface
env.getConfig().setGlobalJobParameters(params);
// get input data
DataSet<String> text = env.readTextFile(params.get("input"));
DataSet<Tuple2<String, Integer>> counts =
// split up the lines in pairs (2-tuples) containing: (word,1)
text.flatMap(new Tokenizer())
// group by the tuple field "0" and sum up tuple field "1"
.groupBy(0)
.sum(1);
// emit result
if (params.has("output")) {
counts.writeAsCsv(params.get("output"), "\n", " ");
// execute program
env.execute("WordCount Example");
} else {
System.out.println("Printing result to stdout. Use --output to specify output path.");
counts.print();
}
}
// *************************************************************************
// USER FUNCTIONS
// *************************************************************************
public static final class Tokenizer implements FlatMapFunction<String, Tuple2<String, Integer>> {
public void flatMap(String value, Collector<Tuple2<String, Integer>> out) {
// normalize and split the line
String[] tokens = value.toLowerCase().split("\\W+");
// emit the pairs
for (String token : tokens) {
if (token.length() > 0) {
out.collect(new Tuple2<>(token, 1));
}
}
}
}
}
Flinkライブラリをこのプロジェクトに追加する必要があるため、エディタで多くのエラーが発生します。
プロジェクトを右クリック>> [ビルドパス] >> [ビルドパスの構成]。
「ライブラリー」タブを選択し、「外部JARの追加」をクリックします。
Flinkのlibディレクトリに移動し、4つのライブラリをすべて選択して、[OK]をクリックします。
[注文とエクスポート]タブに移動し、すべてのライブラリを選択して、[OK]をクリックします。
エラーがなくなっていることがわかります。
それでは、このアプリケーションをエクスポートしましょう。プロジェクトを右クリックし、[エクスポート]をクリックします。
JARファイルを選択し、[次へ]をクリックします
宛先パスを指定して、[次へ]をクリックします
[次へ]をクリックします>
[参照]をクリックし、メインクラス(WordCount)を選択して、[完了]をクリックします。
Note −警告が表示された場合は、[OK]をクリックします。
以下のコマンドを実行します。作成したFlinkアプリケーションがさらに実行されます。
./bin/flink run /home/ubuntu/wordcount.jar --input README.txt --output /home/ubuntu/output
この章では、Flinkプログラムの実行方法を学習します。
FlinkクラスターでFlinkワードカウントの例を実行してみましょう。
Flinkのホームディレクトリに移動し、ターミナルで以下のコマンドを実行します。
bin/flink run examples/batch/WordCount.jar -input README.txt -output /home/ubuntu/flink-1.7.1/output.txt
Flinkダッシュボードに移動すると、完了したジョブとその詳細を確認できます。
[完了したジョブ]をクリックすると、ジョブの詳細な概要が表示されます。
ワードカウントプログラムの出力を確認するには、ターミナルで以下のコマンドを実行します。
cat output.txt
この章では、ApacheFlinkのさまざまなライブラリについて学習します。
複合イベント処理(CEP)
FlinkCEPはApacheFlinkのAPIであり、継続的なストリーミングデータのイベントパターンを分析します。これらのイベントはほぼリアルタイムであり、スループットが高く、待ち時間が短くなっています。このAPIは主に、リアルタイムで処理が非常に複雑なセンサーデータで使用されます。
CEPは入力ストリームのパターンを分析し、すぐに結果を出します。イベントパターンが複雑な場合に、リアルタイムの通知とアラートを提供する機能があります。FlinkCEPは、さまざまな種類の入力ソースに接続して、それらのパターンを分析できます。
これは、CEPを使用したサンプルアーキテクチャがどのように見えるかです。
センサーデータはさまざまなソースから受信され、Kafkaは分散メッセージングフレームワークとして機能し、ストリームをApache Flinkに分散し、FlinkCEPは複雑なイベントパターンを分析します。
PatternAPIを使用して複雑なイベント処理用のプログラムをApacheFlinkで作成できます。これにより、連続ストリームデータから検出するイベントパターンを決定できます。以下は、最も一般的に使用されるCEPパターンの一部です-
ベギン
開始状態を定義するために使用されます。次のプログラムは、Flinkプログラムでどのように定義されているかを示しています。
Pattern<Event, ?> next = start.next("next");
どこ
これは、現在の状態でのフィルター条件を定義するために使用されます。
patternState.where(new FilterFunction <Event>() {
@Override
public boolean filter(Event value) throws Exception {
}
});
次
これは、新しいパターン状態と、前のパターンを渡すために必要な一致イベントを追加するために使用されます。
Pattern<Event, ?> next = start.next("next");
に続く
これは、新しいパターン状態を追加するために使用されますが、ここでは、2つの一致するイベントによって他のイベントが発生する可能性があります。
Pattern<Event, ?> followedBy = start.followedBy("next");
ジェリー
ApacheFlinkのGraphAPIはGellyです。Gellyは、一連のメソッドとユーティリティを使用してFlinkアプリケーションでグラフ分析を実行するために使用されます。Gellyで分散方式でApacheFlink APIを使用して、巨大なグラフを分析できます。同じ目的でApacheGiraphのような他のグラフライブラリもありますが、GellyはApache Flinkの上で使用されるため、単一のAPIを使用します。これは、開発と運用の観点から非常に役立ちます。
Apache FlinkAPI-Gellyを使用して例を実行してみましょう。
まず、2つのGellyjarファイルをApacheFlinkのoptディレクトリからそのlibディレクトリにコピーする必要があります。次に、flink-gelly-examplesjarを実行します。
cp opt/flink-gelly* lib/
./bin/flink run examples/gelly/flink-gelly-examples_*.jar
PageRankの例を実行してみましょう。
PageRankは、頂点ごとのスコアを計算します。これは、エッジ内で送信されたPageRankスコアの合計です。各頂点のスコアは、アウトエッジ間で均等に分割されます。高スコアの頂点は、他の高スコアの頂点によってリンクされています。
結果には、頂点IDとPageRankスコアが含まれます。
usage: flink run examples/flink-gelly-examples_<version>.jar --algorithm PageRank [algorithm options] --input <input> [input options] --output <output> [output options]
./bin/flink run examples/gelly/flink-gelly-examples_*.jar --algorithm PageRank --input CycleGraph --vertex_count 2 --output Print
ApacheFlinkの機械学習ライブラリはFlinkMLと呼ばれます。機械学習の使用は過去5年間で指数関数的に増加しているため、Flinkコミュニティはこの機械学習APOをエコシステムにも追加することを決定しました。FlinkMLでは、貢献者とアルゴリズムのリストが増えています。このAPIはまだバイナリ配布の一部ではありません。
これは、FlinkMLを使用した線形回帰の例です。
// LabeledVector is a feature vector with a label (class or real value)
val trainingData: DataSet[LabeledVector] = ...
val testingData: DataSet[Vector] = ...
// Alternatively, a Splitter is used to break up a DataSet into training and testing data.
val dataSet: DataSet[LabeledVector] = ...
val trainTestData: DataSet[TrainTestDataSet] = Splitter.trainTestSplit(dataSet)
val trainingData: DataSet[LabeledVector] = trainTestData.training
val testingData: DataSet[Vector] = trainTestData.testing.map(lv => lv.vector)
val mlr = MultipleLinearRegression()
.setStepsize(1.0)
.setIterations(100)
.setConvergenceThreshold(0.001)
mlr.fit(trainingData)
// The fitted model can now be used to make predictions
val predictions: DataSet[LabeledVector] = mlr.predict(testingData)
内部 flink-1.7.1/examples/batch/パスには、KMeans.jarファイルがあります。このサンプルFlinkMLの例を実行してみましょう。
このサンプルプログラムは、デフォルトのポイントと図心データセットを使用して実行されます。
./bin/flink run examples/batch/KMeans.jar --output Print
この章では、ApacheFlinkのいくつかのテストケースを理解します。
Apache Flink-ブイグテレコム
Bouygues Telecomは、フランスで最大の通信組織の1つです。1,100万人以上のモバイル加入者と250万人以上の固定顧客がいます。Bouyguesは、パリで開催されたHadoop GroupMeetingで初めてApacheFlinkについて知りました。それ以来、彼らは複数のユースケースでFlinkを使用しています。彼らはApacheFlinkを介して、1日に何十億ものメッセージをリアルタイムで処理してきました。
BouyguesはApacheFlinkについて次のように述べています。「システムがAPIとランタイムレベルの両方で真のストリーミングをサポートし、私たちが探していたプログラム可能性と低遅延を実現したため、Flinkになりました。さらに、他のソリューションと比較して、Flinkを使用してシステムをわずかな時間で稼働させることができたため、システムのビジネスロジックを拡張するために利用できる開発者リソースが増えました。」
ブイグでは、顧客体験が最優先事項です。彼らはデータをリアルタイムで分析し、エンジニアに以下の洞察を与えることができます-
ネットワークを介したリアルタイムのカスタマーエクスペリエンス
ネットワーク上でグローバルに何が起こっているか
ネットワークの評価と運用
彼らは、LUX(Logged User Experience)と呼ばれるシステムを作成しました。このシステムは、内部データ参照を使用してネットワーク機器からの大量のログデータを処理し、カスタマーエクスペリエンスをログに記録し、60以内のデータ消費の障害を検出するアラーム機能を構築するエクスペリエンス品質インジケーターを提供します。秒。
これを実現するには、大量のデータをリアルタイムで取得でき、セットアップが簡単で、ストリーミングデータを処理するための豊富なAPIセットを提供するフレームワークが必要でした。Apache Flinkは、BouyguesTelecomに最適でした。
ApacheFlink-アリババ
アリババは、2015年に3,940億ドルの収益を上げている世界最大のeコマース小売企業です。アリババ検索は、すべての顧客へのエントリポイントであり、すべての検索を表示し、それに応じて推奨します。
アリババは検索エンジンでApacheFlinkを使用して、各ユーザーに最高の精度と関連性で結果をリアルタイムで表示します。
アリババはフレームワークを探していました。
検索インフラストラクチャプロセス全体で1つのコードベースを維持するのに非常に機敏です。
Webサイト上の製品の可用性の変更に対して低遅延を提供します。
一貫性があり、費用効果が高い。
Apache Flinkは、上記のすべての要件を満たしています。単一の処理エンジンを持ち、同じエンジンでバッチデータとストリームデータの両方を処理できるフレームワークが必要です。これがApacheFlinkの機能です。
また、FlinkのフォークバージョンであるBlinkを使用して、検索のいくつかの固有の要件を満たしています。また、ApacheFlinkのTableAPIを使用していますが、検索の改善はほとんどありません。
これはAlibabaがapacheFlinkについて言わなければならなかったことです。「振り返ってみると、AlibabaでのBlinkとFlinkにとって大きな年だったことは間違いありません。1年でこれほど大きな進歩を遂げるとは誰も考えていませんでした。すべての人にとても感謝しています。コミュニティで私たちを助けてくれた人々。Flinkは非常に大規模に機能することが証明されています。私たちはこれまで以上にコミュニティと協力してFlinkを前進させることに取り組んでいます!」
これは、Apache Flink、Apache Spark、ApacheHadoopの3つの最も人気のあるビッグデータフレームワークの比較を示す包括的な表です。
Apache Hadoop | Apache Spark | Apache Flink | |
---|---|---|---|
Year of Origin |
2005年 | 2009年 | 2009年 |
Place of Origin |
MapReduce(Google)Hadoop(Yahoo) | カリフォルニア大学バークレー校 | ベルリン工科大学 |
Data Processing Engine |
バッチ | バッチ | ストリーム |
Processing Speed |
SparkやFlinkよりも遅い | Hadoopより100倍高速 | スパークよりも速い |
Programming Languages |
Java、C、C ++、Ruby、Groovy、Perl、Python | Java、Scala、python、R | JavaとScala |
Programming Model |
MapReduce | 復元力のある分散データセット(RDD) | 循環データフロー |
Data Transfer |
バッチ | バッチ | パイプラインおよびバッチ |
Memory Management |
ディスクベース | JVM管理 | アクティブマネージド |
Latency |
低 | 中 | 低 |
Throughput |
中 | 高い | 高い |
Optimization |
マニュアル | マニュアル | 自動 |
API |
低レベル | 上級 | 上級 |
Streaming Support |
NA | Sparkストリーミング | フリンクストリーミング |
SQL Support |
ハイブ、インパラ | SparkSQL | テーブルAPIとSQL |
Graph Support |
NA | GraphX | ジェリー |
Machine Learning Support |
NA | SparkML | FlinkML |
前の章で見た比較表は、ポインタをほぼ結論付けています。Apache Flinkは、リアルタイムの処理とユースケースに最も適したフレームワークです。その単一のエンジンシステムは、DatasetやDataStreamなどのさまざまなAPIを使用してバッチデータとストリーミングデータの両方を処理できる独自のシステムです。
HadoopとSparkがゲームから外れているという意味ではありません。最も適したビッグデータフレームワークの選択は常にユースケースによって異なり、ユースケースごとに異なります。HadoopとFlink、またはSparkとFlinkの組み合わせが適している可能性があるいくつかのユースケースがあります。
それにもかかわらず、Flinkは現在リアルタイム処理に最適なフレームワークです。Apache Flinkの成長は驚くべきものであり、そのコミュニティへの貢献者の数は日々増加しています。
ハッピーフリンキング!