Apache Flink - Xử lý hàng loạt so với thời gian thực
Về Dữ liệu lớn, có hai kiểu xử lý -
- Xử lý hàng loạt
- Xử lý thời gian thực
Xử lý dựa trên dữ liệu được thu thập theo thời gian được gọi là Xử lý hàng loạt. Ví dụ: một giám đốc ngân hàng muốn xử lý dữ liệu một tháng qua (được thu thập theo thời gian) để biết số séc đã bị hủy trong 1 tháng qua.
Xử lý dựa trên dữ liệu tức thì cho kết quả tức thì được gọi là Xử lý thời gian thực. Ví dụ, một giám đốc ngân hàng nhận được cảnh báo gian lận ngay sau khi một giao dịch gian lận (kết quả tức thì) xảy ra.
Bảng dưới đây liệt kê sự khác biệt giữa Xử lý hàng loạt và Thời gian thực -
Xử lý hàng loạt | Xử lý thời gian thực |
---|---|
Tệp tĩnh |
Luồng sự kiện |
Được xử lý định kỳ theo phút, giờ, ngày, v.v. |
Xử lý ngay lập tức nano giây |
Dữ liệu trước đây trên ổ lưu trữ |
Trong bộ nhớ lưu trữ |
Ví dụ - Tạo hóa đơn |
Ví dụ - Thông báo giao dịch ATM |
Ngày nay, xử lý thời gian thực đang được sử dụng rất nhiều trong mọi tổ chức. Các trường hợp sử dụng như phát hiện gian lận, cảnh báo thời gian thực trong chăm sóc sức khỏe và cảnh báo tấn công mạng yêu cầu xử lý dữ liệu tức thì theo thời gian thực; sự chậm trễ thậm chí vài mili giây có thể có tác động rất lớn.
Một công cụ lý tưởng cho các trường hợp sử dụng thời gian thực như vậy sẽ là một công cụ có thể nhập dữ liệu dưới dạng luồng chứ không phải hàng loạt. Apache Flink là công cụ xử lý thời gian thực.