モンテカルロ法で状態アクション値を更新する場合、各状態アクションペアの戻り値は同じですか?
この投稿を参照して、次の式で状態アクション値を更新します
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
の値です $G$ (リターン)すべての状態アクションで同じ $(s,a)$ ペア?
私はこの点について少し混乱しているので、どんな説明にも感謝します。
回答
2 DavidIreland
議論は貧弱な表記法を使用しています、時間インデックスがあるはずです。タプルのリストを取得します$(s_t, a_t, r_t, s_{t+1})$ 次に、MCにアクセスするたびに、更新します
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
どこ $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$、それぞれについて $t$エピソードで。各タイムステップのリターンはタイムタイムステップ以降で計算されるため、タイムステップ間で必ずしも同じであるとは限らないことがわかります。