Apache Flink - Flink vs Spark vs Hadoop
Dưới đây là một bảng tổng hợp, cho thấy sự so sánh giữa ba khung dữ liệu lớn phổ biến nhất: Apache Flink, Apache Spark và Apache Hadoop.
Apache Hadoop | Apache Spark | Apache Flink | |
---|---|---|---|
Year of Origin |
2005 | 2009 | 2009 |
Place of Origin |
MapReduce (Google) Hadoop (Yahoo) | đại học California, Berkeley | Đại học kỹ thuật Berlin |
Data Processing Engine |
Lô hàng | Lô hàng | Suối |
Processing Speed |
Chậm hơn Spark và Flink | Nhanh hơn 100 lần so với Hadoop | Nhanh hơn tia lửa |
Programming Languages |
Java, C, C ++, Ruby, Groovy, Perl, Python | Java, Scala, python và R | Java và Scala |
Programming Model |
MapReduce | Tập dữ liệu phân phối có khả năng phục hồi (RDD) | Luồng dữ liệu tuần hoàn |
Data Transfer |
Lô hàng | Lô hàng | Pipelined và Batch |
Memory Management |
Dựa trên đĩa | JVM Managed | Được quản lý hoạt động |
Latency |
Thấp | Trung bình | Thấp |
Throughput |
Trung bình | Cao | Cao |
Optimization |
Thủ công | Thủ công | Tự động |
API |
Cấp thấp | Trình độ cao | Trình độ cao |
Streaming Support |
NA | Spark Streaming | Truyền trực tuyến Flink |
SQL Support |
Hive, Impala | SparkSQL | API bảng và SQL |
Graph Support |
NA | GraphX | Gelly |
Machine Learning Support |
NA | SparkML | FlinkML |