PySpark-環境設定

この章では、PySparkの環境設定について理解します。

Note −これは、JavaとScalaがコンピューターにインストールされていることを考慮しています。

次の手順でPySparkをダウンロードしてセットアップしましょう。

Step 1−公式のApache Sparkダウンロードページに移動し、そこで入手可能な最新バージョンのApacheSparkをダウンロードします。このチュートリアルでは、spark-2.1.0-bin-hadoop2.7。

Step 2−次に、ダウンロードしたSparktarファイルを抽出します。デフォルトでは、ダウンロードディレクトリにダウンロードされます。

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

ディレクトリを作成します spark-2.1.0-bin-hadoop2.7。PySparkを開始する前に、次の環境を設定してSparkパスとPy4j path。

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

または、上記の環境をグローバルに設定するには、それらを .bashrc file。次に、環境が機能するように次のコマンドを実行します。

# source .bashrc

すべての環境が設定されたので、Sparkディレクトリに移動し、次のコマンドを実行してPySparkシェルを呼び出します。

# ./bin/pyspark

これにより、PySparkシェルが起動します。

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<