Apache Flink - Konsep API
Flink memiliki beragam API yang dapat digunakan developer untuk melakukan transformasi pada data batch dan real-time. Berbagai transformasi meliputi pemetaan, pemfilteran, pengurutan, penggabungan, pengelompokan, dan agregasi. Transformasi oleh Apache Flink ini dilakukan pada data terdistribusi. Mari kita bahas berbagai API yang ditawarkan Apache Flink.
API Set Data
Dataset API di Apache Flink digunakan untuk melakukan operasi batch pada data selama suatu periode. API ini dapat digunakan di Java, Scala dan Python. Ini dapat menerapkan berbagai jenis transformasi pada kumpulan data seperti pemfilteran, pemetaan, agregasi, penggabungan, dan pengelompokan.
Kumpulan data dibuat dari sumber seperti file lokal atau dengan membaca file dari sumber tertentu dan data hasil dapat ditulis di sink yang berbeda seperti file terdistribusi atau terminal baris perintah. API ini didukung oleh bahasa pemrograman Java dan Scala.
Berikut adalah program Wordcount dari Dataset API -
public class WordCountProg {
public static void main(String[] args) throws Exception {
final ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
DataSet<String> text = env.fromElements(
"Hello",
"My Dataset API Flink Program");
DataSet<Tuple2<String, Integer>> wordCounts = text
.flatMap(new LineSplitter())
.groupBy(0)
.sum(1);
wordCounts.print();
}
public static class LineSplitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String line, Collector<Tuple2<String, Integer>> out) {
for (String word : line.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}
API DataStream
API ini digunakan untuk menangani data dalam aliran berkelanjutan. Anda dapat melakukan berbagai operasi seperti pemfilteran, pemetaan, pembuatan jendela, penggabungan data aliran. Ada berbagai sumber pada aliran data ini seperti antrian pesan, file, aliran soket dan data hasil dapat ditulis pada sink yang berbeda seperti terminal baris perintah. Baik bahasa pemrograman Java dan Scala mendukung API ini.
Berikut adalah program streaming Wordcount dari DataStream API, di mana Anda memiliki aliran jumlah kata yang terus-menerus dan data dikelompokkan di jendela kedua.
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import org.apache.flink.streaming.api.windowing.time.Time;
import org.apache.flink.util.Collector;
public class WindowWordCountProg {
public static void main(String[] args) throws Exception {
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple2<String, Integer>> dataStream = env
.socketTextStream("localhost", 9999)
.flatMap(new Splitter())
.keyBy(0)
.timeWindow(Time.seconds(5))
.sum(1);
dataStream.print();
env.execute("Streaming WordCount Example");
}
public static class Splitter implements FlatMapFunction<String, Tuple2<String, Integer>> {
@Override
public void flatMap(String sentence, Collector<Tuple2<String, Integer>> out) throws Exception {
for (String word: sentence.split(" ")) {
out.collect(new Tuple2<String, Integer>(word, 1));
}
}
}
}