Spark SQL - источники данных
Интерфейс DataFrame позволяет различным источникам данных работать с Spark SQL. Это временная таблица, которую можно использовать как обычный RDD. Регистрация DataFrame в виде таблицы позволяет запускать SQL-запросы к его данным.
В этой главе мы опишем общие методы загрузки и сохранения данных с использованием различных источников данных Spark. После этого мы подробно обсудим конкретные параметры, доступные для встроенных источников данных.
В SparkSQL доступны различные типы источников данных, некоторые из которых перечислены ниже -
Старший Нет | Источники данных |
---|---|
1 | Наборы данных JSON Spark SQL может автоматически захватывать схему набора данных JSON и загружать ее как DataFrame. |
2 | Таблицы-ульи Hive поставляется в комплекте с библиотекой Spark как HiveContext, который наследуется от SQLContext. |
3 | Файлы для паркета Паркет - это столбчатый формат, поддерживаемый многими системами обработки данных. |