PySpark - Umgebungs-Setup

In diesem Kapitel werden wir die Umgebung von PySpark verstehen.

Note - Dies setzt voraus, dass Java und Scala auf Ihrem Computer installiert sind.

Lassen Sie uns jetzt PySpark mit den folgenden Schritten herunterladen und einrichten.

Step 1- Gehen Sie zur offiziellen Apache Spark- Download- Seite und laden Sie die neueste Version von Apache Spark herunter, die dort verfügbar ist. In diesem Tutorial verwenden wirspark-2.1.0-bin-hadoop2.7.

Step 2- Extrahieren Sie nun die heruntergeladene Spark-Tar-Datei. Standardmäßig wird es im Download-Verzeichnis heruntergeladen.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Es wird ein Verzeichnis erstellt spark-2.1.0-bin-hadoop2.7. Bevor Sie PySpark starten, müssen Sie die folgenden Umgebungen festlegen, um den Spark-Pfad und denPy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Um die oben genannten Umgebungen global festzulegen, fügen Sie sie in die .bashrc file. Führen Sie dann den folgenden Befehl aus, damit die Umgebungen funktionieren.

# source .bashrc

Nachdem wir alle Umgebungen eingerichtet haben, gehen wir zum Spark-Verzeichnis und rufen die PySpark-Shell auf, indem wir den folgenden Befehl ausführen:

# ./bin/pyspark

Dadurch wird Ihre PySpark-Shell gestartet.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<