Spark SQL - Datenquellen

Über eine DataFrame-Schnittstelle können verschiedene DataSources mit Spark SQL arbeiten. Es ist eine temporäre Tabelle und kann als normales RDD betrieben werden. Durch Registrieren eines DataFrame als Tabelle können Sie SQL-Abfragen über seine Daten ausführen.

In diesem Kapitel werden die allgemeinen Methoden zum Laden und Speichern von Daten mit verschiedenen Spark DataSources beschrieben. Anschließend werden wir die spezifischen Optionen, die für die integrierten Datenquellen verfügbar sind, ausführlich erörtern.

In SparkSQL stehen verschiedene Arten von Datenquellen zur Verfügung, von denen einige unten aufgeführt sind.

Sr. Nr Datenquellen
1 JSON-Datensätze

Spark SQL kann das Schema eines JSON-Datasets automatisch erfassen und als DataFrame laden.

2 Bienenstocktische

Hive wird mit der Spark-Bibliothek als HiveContext geliefert, der von SQLContext erbt.

3 Parkettdateien

Parkett ist ein Spaltenformat, das von vielen Datenverarbeitungssystemen unterstützt wird.