Spark SQL - Veri Kaynakları

Bir DataFrame arayüzü, farklı DataSources'in Spark SQL üzerinde çalışmasına izin verir. Geçici bir tablodur ve normal bir RDD olarak çalıştırılabilir. Bir DataFrame'i tablo olarak kaydetmek, verileri üzerinde SQL sorguları çalıştırmanıza olanak tanır.

Bu bölümde, farklı Spark Veri Kaynakları kullanarak veri yükleme ve kaydetme için genel yöntemleri açıklayacağız. Daha sonra, yerleşik veri kaynakları için mevcut olan belirli seçenekleri ayrıntılı olarak tartışacağız.

SparkSQL'de, bazıları aşağıda listelenen farklı veri kaynakları türleri vardır -

Sr. Hayır Veri kaynakları
1 JSON Veri Kümeleri

Spark SQL, bir JSON veri kümesinin şemasını otomatik olarak yakalayabilir ve bunu DataFrame olarak yükleyebilir.

2 Kovan Tabloları

Hive, Spark kitaplığıyla birlikte SQLContext'ten miras alınan HiveContext olarak gelir.

3 Parke Dosyaları

Parke, birçok veri işleme sistemi tarafından desteklenen sütunlu bir formattır.