Apache Flink - Nền tảng dữ liệu lớn

Sự tiến bộ của dữ liệu trong 10 năm qua là rất lớn; điều này đã tạo ra một thuật ngữ 'Dữ liệu lớn'. Không có kích thước cố định của dữ liệu, mà bạn có thể gọi là dữ liệu lớn; bất kỳ dữ liệu nào mà hệ thống truyền thống (RDBMS) của bạn không thể xử lý là Dữ liệu lớn. Dữ liệu lớn này có thể ở định dạng có cấu trúc, bán cấu trúc hoặc không có cấu trúc. Ban đầu, có ba thứ nguyên đối với dữ liệu - Khối lượng, Vận tốc, Sự đa dạng. Các kích thước hiện đã vượt ra ngoài chỉ ba chữ V. Bây giờ chúng tôi đã thêm các V khác - Tính xác thực, Tính hợp lệ, Tính dễ bị tổn thương, Giá trị, Tính thay đổi, v.v.

Dữ liệu lớn dẫn đến sự xuất hiện của nhiều công cụ và khuôn khổ giúp lưu trữ và xử lý dữ liệu. Có một số khuôn khổ dữ liệu lớn phổ biến như Hadoop, Spark, Hive, Pig, Storm và Zookeeper. Nó cũng mang lại cơ hội để tạo ra các sản phẩm Thế hệ tiếp theo trong nhiều lĩnh vực như Chăm sóc sức khỏe, Tài chính, Bán lẻ, Thương mại điện tử, v.v.

Cho dù đó là một MNC hay một công ty khởi nghiệp, mọi người đều đang tận dụng Dữ liệu lớn để lưu trữ, xử lý và đưa ra các quyết định thông minh hơn.

ja/tutorial