PySpark - Configuração do ambiente

Neste capítulo, entenderemos a configuração do ambiente do PySpark.

Note - Isso considerando que você tem Java e Scala instalados em seu computador.

Vamos agora baixar e configurar o PySpark com as seguintes etapas.

Step 1- Vá para a página oficial de download do Apache Spark e baixe a versão mais recente do Apache Spark disponível lá. Neste tutorial, estamos usandospark-2.1.0-bin-hadoop2.7.

Step 2- Agora, extraia o arquivo Spark tar baixado. Por padrão, ele será baixado no diretório Downloads.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Irá criar um diretório spark-2.1.0-bin-hadoop2.7. Antes de iniciar o PySpark, você precisa definir os seguintes ambientes para definir o caminho do Spark e oPy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Ou, para definir os ambientes acima globalmente, coloque-os no .bashrc file. Em seguida, execute o seguinte comando para que os ambientes funcionem.

# source .bashrc

Agora que temos todos os ambientes configurados, vamos ao diretório Spark e invoque o shell PySpark executando o seguinte comando -

# ./bin/pyspark

Isso iniciará seu shell PySpark.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<