PySpark-환경 설정

이 장에서는 PySpark의 환경 설정을 이해합니다.

Note − 컴퓨터에 Java와 Scala가 설치되어있는 것으로 간주합니다.

이제 다음 단계에 따라 PySpark를 다운로드하고 설정하겠습니다.

Step 1− 공식 Apache Spark 다운로드 페이지로 이동 하여 최신 버전의 Apache Spark를 다운로드 하십시오. 이 튜토리얼에서 우리는spark-2.1.0-bin-hadoop2.7.

Step 2− 이제 다운로드 한 Spark tar 파일을 추출합니다. 기본적으로 다운로드 디렉토리에 다운로드됩니다.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

디렉토리를 생성합니다. spark-2.1.0-bin-hadoop2.7. PySpark를 시작하기 전에 다음 환경을 설정하여 Spark 경로 및Py4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

또는 위의 환경을 전역 적으로 설정하려면 .bashrc file. 그런 다음 환경이 작동하려면 다음 명령을 실행하십시오.

# source .bashrc

이제 모든 환경이 설정되었으므로 Spark 디렉터리로 이동하여 다음 명령을 실행하여 PySpark 셸을 호출합니다.

# ./bin/pyspark

그러면 PySpark 셸이 시작됩니다.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<