AlphaZeroでは、ターミナル状態のデータを保存する必要がありますか?

Dec 16 2020

AlphaZeroのニューラルネットワークの更新/バックプロパゲーションステップで使用されるトレーニングデータについて質問があります。

論文から:

各タイムステップのデータ $t$ (として保存されます$s_t, \pi_t, z_t$) どこ $z_t = \pm r_T$ ステップで現在のプレーヤーの観点からゲームの勝者です $t$。並行して(図1b)、新しいネットワークパラメータ$\Theta_i$ データからトレーニングされます($s,\pi, z$)セルフプレイの最後の反復のすべてのタイムステップ間で均一にサンプリングされます

当時の方針について $t$ (($\pi_t$)、私はこれを、各子ノードへの訪問数に比例するアクションを実行する確率分布として理解しました。つまり、MCTS中に、ある時点での親ノード(状態)が与えられます。 $t$、子ノードの場合(後続の状態) $a$ 訪問されます $N_a$ 時間とすべての子ノードが訪問されます $\sum_b N_b$ 倍、その後の確率 $a$ (およびそれに対応する動き)サンプリングされているのは $\frac{N_a}{\sum_b N_b}$、そしてこれは分布をパラメータ化します $\pi_t$。これは正しいです?これが事実である場合、いくつかの端末状態について$T$、訪問する子ノード(状態)がないため、分布をパラメーター化することはできません。それは私たちが追加しないことを意味します($s_T, \pi_T, z_T$)トレーニングデータに?

また、損失関数に関するフォローアップの質問:

$l = (z-v)^2 - \pi^T log\textbf{p} + c||\Theta||^2$

私はこれについて混乱しています $\pi^T$表記。私の最善の推測は、これはのすべてのポリシーからサンプリングされたアクションのベクトルであるということです$N$ バツ $(s_t, \pi_t, z_t)$ミニバッチですが、よくわかりません。(PS$T$ で使われる $\pi^T$ とは異なります $T$紙を見ると、最終状態を示すために使用されます。混乱してすみません、2つの異なる見た目のTを書く方法がわかりません)

回答

DennisSoemers Dec 16 2020 at 23:21

彼らがターミナルゲームの状態のデータを追加したかどうかは100%わかりませんが、ターミナルゲームの状態のデータを含めないという選択を実際に行うことは非常に合理的です。ご指摘のとおり、このような場合にポリシーヘッドを更新する意味のあるターゲットはありません。また、ゲーム終了時の状態でポリシー出力を実際に使用することはないため、これは実際には問題ではありません。バリューヘッドについては、更新する意味のあるターゲットを提供できますが、実際にはそのような出力を使用する必要はありません。ツリー検索でターミナルゲームの状態に遭遇した場合、ネットワークを呼び出して値関数近似を取得する代わりに、そのターミナルゲームの状態の真の値をバックアップするだけです。

理論的には、ターミナルゲームの状態でバリューヘッドをトレーニングすることが、厳密には必要ではないにもかかわらず、わずかに有益である場合があると想像できます。それは、終末ではない(しかし終末に近い)同様のゲーム状態への一般化を可能にし、それらの学習をスピードアップする可能性があります。たとえば、目標が次の行を完了することであるゲームがある場合$5$ ピース、実際に次の行があるターミナル状態でバリューヘッドをトレーニングします $5$ ピースと完全にゲームに勝ったことは、あなたがまだ持っていないかもしれない同様のゲーム状態の学習を一般化し、スピードアップするかもしれません $5$一列に並んでいますが、その目標に非常に近いです。とは言うものの、直感的には、これが大きなメリットをもたらすとは思えませんし、有害な場合も考えられるでしょう。


の中に $\pi^{\text{T}}$ 表記、 $\pi$ は、アクション全体の離散確率分布(MCTSの訪問カウント、確率分布に正規化)を含むベクトル(任意の時間ステップの場合、時間ステップはここでは指定されません)であり、 $\text{T}$単に、そのベクトルの転置を取ることを示します。個人的には表記が好きではありませんが、次のようなものが好きです$\pi^{\top}$ これは手紙とはより明確に区別されます $T$ または $\text{T}$

とにかく、転置を表すことを理解すると、それがわかります $\pi^{\top}\log(\mathbf{p})$ は2つのベクトル間の内積であり、最終的には単一のスカラーになります。