Apache Flink - API-Konzepte
Flink verfügt über eine Vielzahl von APIs, mit denen Entwickler Transformationen sowohl für Batch- als auch für Echtzeitdaten durchführen können. Eine Vielzahl von Transformationen umfasst das Zuordnen, Filtern, Sortieren, Verbinden, Gruppieren und Aggregieren. Diese Transformationen von Apache Flink werden für verteilte Daten durchgeführt. Lassen Sie uns die verschiedenen APIs diskutieren, die Apache Flink anbietet.
Datensatz-API
Die Datensatz-API in Apache Flink wird verwendet, um Stapelvorgänge für die Daten über einen bestimmten Zeitraum auszuführen. Diese API kann in Java, Scala und Python verwendet werden. Es kann verschiedene Arten von Transformationen auf die Datasets anwenden, z. B. Filtern, Zuordnen, Aggregieren, Verbinden und Gruppieren.
Datensätze werden aus Quellen wie lokalen Dateien oder durch Lesen einer Datei aus einer bestimmten Quelle erstellt. Die Ergebnisdaten können auf verschiedene Senken wie verteilte Dateien oder Befehlszeilenterminals geschrieben werden. Diese API wird sowohl von Java- als auch von Scala-Programmiersprachen unterstützt.
Hier ist ein Wordcount-Programm der Dataset API -
public class WordCountProg {
public static void main(String[] args) throws Exception {
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> text = env.fromElements(
"Hello",
"My Dataset API Flink Program");
DataSet<Tuple2<String, Integer>> wordCounts = text
.flatMap(new LineSplitter())
.groupBy(0)
.sum(1);
wordCounts.print();
}
public static class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String line, Collector<Tuple2<String, Integer>> out) {
for (String word : line.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
DataStream-API
Diese API wird für die Verarbeitung von Daten in einem kontinuierlichen Datenstrom verwendet. Sie können verschiedene Vorgänge ausführen, z. B. Filtern, Zuordnen, Fenstern und Aggregieren der Stream-Daten. In diesem Datenstrom befinden sich verschiedene Quellen wie Nachrichtenwarteschlangen, Dateien, Socket-Streams, und die Ergebnisdaten können auf verschiedene Senken wie das Befehlszeilenterminal geschrieben werden. Sowohl Java- als auch Scala-Programmiersprachen unterstützen diese API.
Hier ist ein Streaming-Wordcount-Programm der DataStream-API, bei dem Sie einen kontinuierlichen Stream von Wortzählungen haben und die Daten im zweiten Fenster gruppiert werden.
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;
public class WindowWordCountProg {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple2<String, Integer>> dataStream = env
.socketTextStream("localhost", 9999)
.flatMap(new Splitter())
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);
dataStream.print();
env.execute("Streaming WordCount Example");
}
public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
for (String word: sentence.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}