PySpark - Thiết lập môi trường

Trong chương này, chúng ta sẽ hiểu thiết lập môi trường của PySpark.

Note - Đây là việc bạn đã cài đặt Java và Scala trên máy tính của mình.

Bây giờ chúng ta hãy tải xuống và thiết lập PySpark với các bước sau.

Step 1- Truy cập trang tải xuống Apache Spark chính thức và tải xuống phiên bản Apache Spark mới nhất có sẵn tại đó. Trong hướng dẫn này, chúng tôi đang sử dụngspark-2.1.0-bin-hadoop2.7.

Step 2- Bây giờ, giải nén tệp Spark tar đã tải xuống. Theo mặc định, nó sẽ được tải xuống trong thư mục Tải xuống.

# tar -xvf Downloads/spark-2.1.0-bin-hadoop2.7.tgz

Nó sẽ tạo một thư mục spark-2.1.0-bin-hadoop2.7. Trước khi bắt đầu PySpark, bạn cần đặt các môi trường sau để đặt đường dẫn Spark vàPy4j path.

export SPARK_HOME = /home/hadoop/spark-2.1.0-bin-hadoop2.7
export PATH = $PATH:/home/hadoop/spark-2.1.0-bin-hadoop2.7/bin
export PYTHONPATH = $SPARK_HOME/python:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip:$PYTHONPATH
export PATH = $SPARK_HOME/python:$PATH

Hoặc, để đặt các môi trường trên trên toàn cầu, hãy đặt chúng vào .bashrc file. Sau đó chạy lệnh sau để các môi trường hoạt động.

# source .bashrc

Bây giờ chúng ta đã thiết lập tất cả các môi trường, hãy vào thư mục Spark và gọi trình bao PySpark bằng cách chạy lệnh sau:

# ./bin/pyspark

Thao tác này sẽ khởi động trình bao PySpark của bạn.

Python 2.7.12 (default, Nov 19 2016, 06:48:10) 
[GCC 5.4.0 20160609] on linux2
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 2.1.0
      /_/
Using Python version 2.7.12 (default, Nov 19 2016 06:48:10)
SparkSession available as 'spark'.
<<<