PySpark - SparkConf
Чтобы запустить приложение Spark на локальном компьютере / кластере, вам необходимо установить несколько конфигураций и параметров, в этом и помогает SparkConf. Он предоставляет конфигурации для запуска приложения Spark. В следующем блоке кода содержится подробная информация о классе SparkConf для PySpark.
class pyspark.SparkConf (
loadDefaults = True,
_jvm = None,
_jconf = None
)
Первоначально мы создадим объект SparkConf с помощью SparkConf (), который загрузит значения из spark.*Системные свойства Java. Теперь вы можете задавать различные параметры с помощью объекта SparkConf, и их параметры будут иметь приоритет над свойствами системы.
В классе SparkConf есть методы установки, которые поддерживают цепочку. Например, вы можете написатьconf.setAppName(“PySpark App”).setMaster(“local”). Когда мы передаем объект SparkConf в Apache Spark, он не может быть изменен ни одним пользователем.
Ниже приведены некоторые из наиболее часто используемых атрибутов SparkConf.
set(key, value) - Чтобы установить свойство конфигурации.
setMaster(value) - Чтобы установить главный URL.
setAppName(value) - Установить имя приложения.
get(key, defaultValue=None) - Получить значение конфигурации ключа.
setSparkHome(value) - Установить путь установки Spark на рабочих узлах.
Давайте рассмотрим следующий пример использования SparkConf в программе PySpark. В этом примере мы устанавливаем имя приложения Spark какPySpark App и установив главный URL-адрес для приложения Spark на → spark://master:7077.
В следующем блоке кода есть строки, когда они добавляются в файл Python, он устанавливает базовые конфигурации для запуска приложения PySpark.
---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------