Apache Flink - Flink vs Spark vs Hadoop

Dưới đây là một bảng tổng hợp, cho thấy sự so sánh giữa ba khung dữ liệu lớn phổ biến nhất: Apache Flink, Apache Spark và Apache Hadoop.

Apache Hadoop Apache Spark Apache Flink

Year of Origin

2005 2009 2009

Place of Origin

MapReduce (Google) Hadoop (Yahoo) đại học California, Berkeley Đại học kỹ thuật Berlin

Data Processing Engine

Lô hàng Lô hàng Suối

Processing Speed

Chậm hơn Spark và Flink Nhanh hơn 100 lần so với Hadoop Nhanh hơn tia lửa

Programming Languages

Java, C, C ++, Ruby, Groovy, Perl, Python Java, Scala, python và R Java và Scala

Programming Model

MapReduce Tập dữ liệu phân phối có khả năng phục hồi (RDD) Luồng dữ liệu tuần hoàn

Data Transfer

Lô hàng Lô hàng Pipelined và Batch

Memory Management

Dựa trên đĩa JVM Managed Được quản lý hoạt động

Latency

Thấp Trung bình Thấp

Throughput

Trung bình Cao Cao

Optimization

Thủ công Thủ công Tự động

API

Cấp thấp Trình độ cao Trình độ cao

Streaming Support

NA Spark Streaming Truyền trực tuyến Flink

SQL Support

Hive, Impala SparkSQL API bảng và SQL

Graph Support

NA GraphX Gelly

Machine Learning Support

NA SparkML FlinkML