PySpark - Настройка среды

В этой главе мы разберемся с настройкой среды PySpark.

Note - Это с учетом того, что на вашем компьютере установлены Java и Scala.

Давайте теперь загрузим и настроим PySpark, выполнив следующие действия.

Step 1- Перейти на официальный Apache Спарк загрузки страницы и загрузить последнюю версию Apache там Спарк доступны. В этом руководстве мы используемspark-2.1.0-bin-hadoop2.7.

Step 2- Теперь извлеките загруженный tar-файл Spark. По умолчанию он загружается в каталог загрузок.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Будет создан каталог spark-2.1.0-bin-hadoop2.7. Перед запуском PySpark вам необходимо настроить следующие среды, чтобы задать путь Spark иPy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Или, чтобы настроить указанные выше среды глобально, поместите их в .bashrc file. Затем выполните следующую команду, чтобы среды работали.

# source .bashrc

Теперь, когда у нас настроены все среды, давайте перейдем в каталог Spark и вызовем оболочку PySpark, выполнив следующую команду -

# ./bin/pyspark

Это запустит вашу оболочку PySpark.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<