Apache Flink - Koncepcje API
Flink ma bogaty zestaw interfejsów API, za pomocą których programiści mogą wykonywać transformacje zarówno na danych wsadowych, jak i danych w czasie rzeczywistym. Różnorodne transformacje obejmują mapowanie, filtrowanie, sortowanie, łączenie, grupowanie i agregowanie. Te transformacje przez Apache Flink są wykonywane na rozproszonych danych. Omówmy różne interfejsy API oferowane przez Apache Flink.
Dataset API
Dataset API w Apache Flink służy do wykonywania operacji wsadowych na danych w okresie. Tego interfejsu API można używać w językach Java, Scala i Python. Może stosować różne rodzaje przekształceń na zbiorach danych, takie jak filtrowanie, mapowanie, agregowanie, łączenie i grupowanie.
Zestawy danych są tworzone ze źródeł, takich jak pliki lokalne lub przez odczytanie pliku z określonego źródła, a dane wynikowe mogą być zapisywane w różnych ujściach, takich jak pliki rozproszone lub terminal wiersza poleceń. Ten interfejs API jest obsługiwany przez języki programowania Java i Scala.
Oto program Wordcount interfejsu API zestawu danych -
public class WordCountProg {
public static void main(String[] args) throws Exception {
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> text = env.fromElements(
"Hello",
"My Dataset API Flink Program");
DataSet<Tuple2<String, Integer>> wordCounts = text
.flatMap(new LineSplitter())
.groupBy(0)
.sum(1);
wordCounts.print();
}
public static class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String line, Collector<Tuple2<String, Integer>> out) {
for (String word : line.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
DataStream API
Ten interfejs API służy do obsługi danych w ciągłym strumieniu. Na strumieniu danych można wykonywać różne operacje, takie jak filtrowanie, mapowanie, okienkowanie, agregowanie. Istnieją różne źródła tego strumienia danych, takie jak kolejki komunikatów, pliki, strumienie gniazd, a dane wynikowe mogą być zapisywane w różnych ujściach, takich jak terminal wiersza poleceń. Ten interfejs API obsługują języki programowania Java i Scala.
Oto program strumieniowy Wordcount API DataStream, w którym masz ciągły strumień liczby słów, a dane są grupowane w drugim oknie.
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;
public class WindowWordCountProg {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple2<String, Integer>> dataStream = env
.socketTextStream("localhost", 9999)
.flatMap(new Splitter())
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);
dataStream.print();
env.execute("Streaming WordCount Example");
}
public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
for (String word: sentence.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}