PySpark - การตั้งค่าสภาพแวดล้อม

ในบทนี้เราจะเข้าใจการตั้งค่าสภาพแวดล้อมของ PySpark

Note - นี่เป็นการพิจารณาว่าคุณติดตั้ง Java และ Scala ไว้ในคอมพิวเตอร์ของคุณ

ให้เราดาวน์โหลดและตั้งค่า PySpark ตามขั้นตอนต่อไปนี้

Step 1- ไปที่หน้าดาวน์โหลด Apache Spark อย่างเป็นทางการและดาวน์โหลด Apache Spark เวอร์ชันล่าสุดที่มีอยู่ที่นั่น ในบทช่วยสอนนี้เรากำลังใช้ไฟล์spark-2.1.0-bin-hadoop2.7.

Step 2- ตอนนี้แตกไฟล์ Spark tar ที่ดาวน์โหลดมา โดยค่าเริ่มต้นจะดาวน์โหลดในไดเรกทอรีดาวน์โหลด

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

มันจะสร้างไดเร็กทอรี spark-2.1.0-bin-hadoop2.7. ก่อนเริ่ม PySpark คุณต้องตั้งค่าสภาพแวดล้อมต่อไปนี้เพื่อตั้งค่าพา ธ Spark และไฟล์Py4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

หรือหากต้องการตั้งค่าสภาพแวดล้อมข้างต้นทั่วโลกให้ใส่ไว้ในไฟล์ .bashrc file. จากนั้นรันคำสั่งต่อไปนี้เพื่อให้สภาพแวดล้อมทำงาน

# source .bashrc

ตอนนี้เราได้ตั้งค่าสภาพแวดล้อมทั้งหมดแล้วให้เราไปที่ไดเร็กทอรี Spark และเรียกใช้ PySpark shell โดยรันคำสั่งต่อไปนี้ -

# ./bin/pyspark

สิ่งนี้จะเริ่มเชลล์ PySpark ของคุณ

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<