PySpark - Umgebungs-Setup
In diesem Kapitel werden wir die Umgebung von PySpark verstehen.
Note - Dies setzt voraus, dass Java und Scala auf Ihrem Computer installiert sind.
Lassen Sie uns jetzt PySpark mit den folgenden Schritten herunterladen und einrichten.
Step 1- Gehen Sie zur offiziellen Apache Spark- Download- Seite und laden Sie die neueste Version von Apache Spark herunter, die dort verfügbar ist. In diesem Tutorial verwenden wirspark-2.1.0-bin-hadoop2.7.
Step 2- Extrahieren Sie nun die heruntergeladene Spark-Tar-Datei. Standardmäßig wird es im Download-Verzeichnis heruntergeladen.
# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz
Es wird ein Verzeichnis erstellt spark-2.1.0-bin-hadoop2.7. Bevor Sie PySpark starten, müssen Sie die folgenden Umgebungen festlegen, um den Spark-Pfad und denPy4j path.
export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH
Um die oben genannten Umgebungen global festzulegen, fügen Sie sie in die .bashrc file. Führen Sie dann den folgenden Befehl aus, damit die Umgebungen funktionieren.
# source .bashrc
Nachdem wir alle Umgebungen eingerichtet haben, gehen wir zum Spark-Verzeichnis und rufen die PySpark-Shell auf, indem wir den folgenden Befehl ausführen:
# ./bin/pyspark
Dadurch wird Ihre PySpark-Shell gestartet.
Python 2.7.12 (default, Nov 19 2016, 06:48:10)
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 2.1.0
/_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<