pycharmでpysparkコードを実行しているときにsparkweb uiを開く方法は?

Aug 17 2020

私はWindows10マシンのローカルpycharmでpysparkプログラムを実行しています。Spark Web UIを開いてジョブを監視し、Spark WebUIで表示されるメトリックを理解したいと思います。jupyterで同じコードを実行している間、web uiにアクセスできますが、pycharmを使用してプログラムを実行すると、url local:4040またはlocalhost:4041を試しても、spark web uiにアクセスするオプションが表示されませんが、これは機能しませんでした。

回答

2 Shu Aug 17 2020 at 19:42

uisparksessionでアクセスできるポートを構成できます。

Example:

spark = SparkSession.builder.master("local").\
appName("Word Count").\
config("spark.driver.bindAddress","localhost").\
config("spark.ui.port","4050").\
getOrCreate()

これで、sparkセッションが初期化されると、でsparkuiにアクセスできるようになりますhttp://localhost:4050/jobs/ until the pycharm job finished executing

その時点でポートにアクセスできない場合は、ログのスパークプリントのどこでスパークUIにアクセスできますか。

Sample log:

2020-08-17 14:39:37 WARN Utils:66 - Service 'SparkUI' could not bind on port 4050. Attempting port 4051.