PySpark-SparkConf

ローカル/クラスターでSparkアプリケーションを実行するには、いくつかの構成とパラメーターを設定する必要があります。これは、SparkConfが役立つものです。Sparkアプリケーションを実行するための構成を提供します。次のコードブロックには、PySparkのSparkConfクラスの詳細が含まれています。

class pyspark.SparkConf (
   loadDefaults = True, 
   _jvm = None, 
   _jconf = None
)

最初に、SparkConf()を使用してSparkConfオブジェクトを作成します。これにより、 spark.*Javaシステムのプロパティも同様です。これで、SparkConfオブジェクトを使用してさまざまなパラメーターを設定でき、それらのパラメーターはシステムプロパティよりも優先されます。

SparkConfクラスには、連鎖をサポートするセッターメソッドがあります。たとえば、あなたは書くことができますconf.setAppName(“PySpark App”).setMaster(“local”)。SparkConfオブジェクトをApacheSparkに渡すと、どのユーザーも変更できなくなります。

以下は、SparkConfの最も一般的に使用される属性の一部です。

  • set(key, value) −構成プロパティを設定します。

  • setMaster(value) −マスターURLを設定します。

  • setAppName(value) −アプリケーション名を設定します。

  • get(key, defaultValue=None) −キーの構成値を取得します。

  • setSparkHome(value) −ワーカーノードにSparkインストールパスを設定します。

PySparkプログラムでSparkConfを使用する次の例を考えてみましょう。この例では、sparkアプリケーション名を次のように設定しています。PySpark App SparkアプリケーションのマスターURLを→に設定します spark://master:7077

次のコードブロックには次の行があり、Pythonファイルに追加されると、PySparkアプリケーションを実行するための基本的な構成が設定されます。

---------------------------------------------------------------------------------------
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)
---------------------------------------------------------------------------------------