Spark SQL - Pendahuluan
Spark memperkenalkan modul pemrograman untuk pemrosesan data terstruktur yang disebut Spark SQL. Ini menyediakan abstraksi pemrograman yang disebut DataFrame dan dapat bertindak sebagai mesin kueri SQL terdistribusi.
Fitur Spark SQL
Berikut ini adalah fitur-fitur Spark SQL -
Integrated- Gabungkan kueri SQL dengan program Spark dengan mulus. Spark SQL memungkinkan Anda membuat kueri data terstruktur sebagai kumpulan data terdistribusi (RDD) di Spark, dengan API terintegrasi di Python, Scala, dan Java. Integrasi yang erat ini memudahkan untuk menjalankan kueri SQL bersama dengan algoritme analitik yang kompleks.
Unified Data Access- Muat dan kueri data dari berbagai sumber. Schema-RDD menyediakan satu antarmuka untuk bekerja secara efisien dengan data terstruktur, termasuk tabel Apache Hive, file parket, dan file JSON.
Hive Compatibility- Jalankan kueri Hive yang tidak dimodifikasi di gudang yang ada. Spark SQL menggunakan kembali bagian depan Hive dan MetaStore, memberi Anda kompatibilitas penuh dengan data, kueri, dan UDF Hive yang ada. Cukup instal bersama Hive.
Standard Connectivity- Terhubung melalui JDBC atau ODBC. Spark SQL menyertakan mode server dengan konektivitas JDBC dan ODBC standar industri.
Scalability- Gunakan mesin yang sama untuk kueri interaktif dan panjang. Spark SQL memanfaatkan model RDD untuk mendukung toleransi kesalahan kueri menengah, membiarkannya menskalakan ke pekerjaan besar juga. Jangan khawatir tentang menggunakan mesin yang berbeda untuk data historis.
Spark SQL Architecture
Ilustrasi berikut menjelaskan arsitektur Spark SQL -
Arsitektur ini berisi tiga lapisan yaitu, API Bahasa, Skema RDD, dan Sumber Data.
Language API- Spark kompatibel dengan berbagai bahasa dan Spark SQL. Ini juga, didukung oleh bahasa-bahasa ini- API (python, scala, java, HiveQL).
Schema RDD- Spark Core dirancang dengan struktur data khusus yang disebut RDD. Secara umum, Spark SQL berfungsi pada skema, tabel, dan rekaman. Oleh karena itu, kita dapat menggunakan Schema RDD sebagai tabel sementara. Kita bisa menyebut Schema RDD ini sebagai Data Frame.
Data Sources- Biasanya sumber Data untuk spark-core adalah file teks, file Avro, dll. Namun, Sumber Data untuk Spark SQL berbeda. Yaitu file Parket, dokumen JSON, tabel HIVE, dan database Cassandra.
Kami akan membahas lebih lanjut tentang ini di bab-bab selanjutnya.