Apache Flink - Giới thiệu

Apache Flink là một khung xử lý thời gian thực có thể xử lý dữ liệu truyền trực tuyến. Nó là một khung xử lý dòng mã nguồn mở cho các ứng dụng thời gian thực hiệu suất cao, có thể mở rộng và chính xác. Nó có mô hình phát trực tuyến thực sự và không lấy dữ liệu đầu vào dưới dạng lô hoặc vi lô.

Apache Flink được thành lập bởi công ty Data Artisans và hiện được phát triển theo Giấy phép Apache của Apache Flink Community. Cộng đồng này có hơn 479 cộng tác viên và hơn 15500 cam kết cho đến nay.

Hệ sinh thái trên Apache Flink

Sơ đồ dưới đây cho thấy các lớp khác nhau của Hệ sinh thái liên kết Apache -

Lưu trữ

Apache Flink có nhiều tùy chọn từ đó nó có thể Đọc / Ghi dữ liệu. Dưới đây là danh sách lưu trữ cơ bản -

HDFS (Hệ thống tệp phân tán Hadoop)
Hệ thống tệp cục bộ
S3
RDBMS (MySQL, Oracle, MS SQL, v.v.)
MongoDB
HBase
Apache Kafka
Apache Flume

Triển khai

Bạn có thể triển khai Apache Fink ở chế độ cục bộ, chế độ cụm hoặc trên đám mây. Chế độ cụm có thể là độc lập, YARN, MESOS.

Trên đám mây, Flink có thể được triển khai trên AWS hoặc GCP.

Kernel

Đây là lớp thời gian chạy, cung cấp khả năng xử lý phân tán, khả năng chịu lỗi, độ tin cậy, khả năng xử lý lặp lại nguyên bản và hơn thế nữa.

API & Thư viện

Đây là lớp trên cùng và lớp quan trọng nhất của Apache Flink. Nó có API Dataset, xử lý hàng loạt và API Datastream, xử lý luồng. Có các thư viện khác như Flink ML (cho máy học), Gelly (để xử lý đồ thị), Tables cho SQL. Lớp này cung cấp các khả năng đa dạng cho Apache Flink.