PySpark - SparkConf

Để chạy một ứng dụng Spark trên local / cluster, bạn cần thiết lập một vài cấu hình và thông số, đây là những gì SparkConf giúp bạn. Nó cung cấp các cấu hình để chạy một ứng dụng Spark. Khối mã sau có các chi tiết của lớp SparkConf cho PySpark.

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

Ban đầu, chúng tôi sẽ tạo một đối tượng SparkConf với SparkConf (), đối tượng này sẽ tải các giá trị từ spark.*Các thuộc tính hệ thống Java cũng vậy. Bây giờ bạn có thể đặt các tham số khác nhau bằng cách sử dụng đối tượng SparkConf và các tham số của chúng sẽ được ưu tiên hơn các thuộc tính hệ thống.

Trong một lớp SparkConf, có các phương thức setter, hỗ trợ chuỗi. Ví dụ, bạn có thể viếtconf.setAppName(“PySpark App”).setMaster(“local”). Khi chúng tôi chuyển một đối tượng SparkConf cho Apache Spark, thì bất kỳ người dùng nào cũng không thể sửa đổi nó.

Sau đây là một số thuộc tính thường được sử dụng nhất của SparkConf:

  • set(key, value) - Để thiết lập thuộc tính cấu hình.

  • setMaster(value) - Để đặt URL chính.

  • setAppName(value) - Để đặt tên ứng dụng.

  • get(key, defaultValue=None) - Để nhận giá trị cấu hình của một khóa.

  • setSparkHome(value) - Để thiết lập đường dẫn cài đặt Spark trên các nút công nhân.

Chúng ta hãy xem xét ví dụ sau về việc sử dụng SparkConf trong chương trình PySpark. Trong ví dụ này, chúng tôi đang đặt tên ứng dụng tia lửa làPySpark App và đặt URL chính cho ứng dụng spark thành → spark://master:7077.

Khối mã sau có các dòng, khi chúng được thêm vào tệp Python, nó sẽ đặt các cấu hình cơ bản để chạy ứng dụng PySpark.

---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------