Apache Flink - Pendahuluan

Apache Flink adalah kerangka kerja pemrosesan waktu nyata yang dapat memproses data streaming. Ini adalah kerangka pemrosesan aliran sumber terbuka untuk aplikasi real-time berkinerja tinggi, dapat diskalakan, dan akurat. Ini memiliki model streaming yang benar dan tidak mengambil data input sebagai batch atau mikro-batch.

Apache Flink didirikan oleh perusahaan Data Artisans dan sekarang dikembangkan di bawah Lisensi Apache oleh Apache Flink Community. Komunitas ini memiliki lebih dari 479 kontributor dan 15500+ komit sejauh ini.

Ekosistem di Apache Flink

Diagram yang diberikan di bawah ini menunjukkan berbagai lapisan Ekosistem Apache Flink -

Penyimpanan

Apache Flink memiliki beberapa opsi dari mana ia dapat Membaca / Menulis data. Di bawah ini adalah daftar penyimpanan dasar -

HDFS (Sistem File Terdistribusi Hadoop)
Sistem File Lokal
S3
RDBMS (MySQL, Oracle, MS SQL dll.)
MongoDB
HBase
Apache Kafka
Apache Flume

Menyebarkan

Anda dapat menerapkan Apache Fink dalam mode lokal, mode cluster, atau di cloud. Mode cluster dapat berdiri sendiri, YARN, MESOS.

Di cloud, Flink dapat diterapkan di AWS atau GCP.

Inti

Ini adalah lapisan runtime, yang menyediakan pemrosesan terdistribusi, toleransi kesalahan, keandalan, kemampuan pemrosesan berulang asli, dan banyak lagi.

API & Perpustakaan

Ini adalah lapisan teratas dan lapisan terpenting dari Apache Flink. Ini memiliki Dataset API, yang menangani pemrosesan batch, dan Datastream API, yang menangani pemrosesan streaming. Ada library lain seperti Flink ML (untuk pembelajaran mesin), Gelly (untuk pemrosesan grafik), Tables for SQL. Lapisan ini memberikan kemampuan yang beragam untuk Apache Flink.