PySpark - SparkConf

Чтобы запустить приложение Spark на локальном компьютере / кластере, вам необходимо установить несколько конфигураций и параметров, в этом и помогает SparkConf. Он предоставляет конфигурации для запуска приложения Spark. В следующем блоке кода содержится подробная информация о классе SparkConf для PySpark.

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

Первоначально мы создадим объект SparkConf с помощью SparkConf (), который загрузит значения из spark.*Системные свойства Java. Теперь вы можете задавать различные параметры с помощью объекта SparkConf, и их параметры будут иметь приоритет над свойствами системы.

В классе SparkConf есть методы установки, которые поддерживают цепочку. Например, вы можете написатьconf.setAppName(“PySpark App”).setMaster(“local”). Когда мы передаем объект SparkConf в Apache Spark, он не может быть изменен ни одним пользователем.

Ниже приведены некоторые из наиболее часто используемых атрибутов SparkConf.

  • set(key, value) - Чтобы установить свойство конфигурации.

  • setMaster(value) - Чтобы установить главный URL.

  • setAppName(value) - Установить имя приложения.

  • get(key, defaultValue=None) - Получить значение конфигурации ключа.

  • setSparkHome(value) - Установить путь установки Spark на рабочих узлах.

Давайте рассмотрим следующий пример использования SparkConf в программе PySpark. В этом примере мы устанавливаем имя приложения Spark какPySpark App и установив главный URL-адрес для приложения Spark на → spark://master:7077.

В следующем блоке кода есть строки, когда они добавляются в файл Python, он устанавливает базовые конфигурации для запуска приложения PySpark.

---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------