Ist bei der Aktualisierung des Zustandsaktionswerts in der Monte-Carlo-Methode die Rückgabe für jedes Zustandsaktionspaar gleich?
Verweisen Sie auf diesen Beitrag in der folgenden Formel, um den Statusaktionswert zu aktualisieren
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
ist der Wert von $G$ (die Rückkehr) für jede staatliche Aktion gleich $(s,a)$ Paar?
Ich bin etwas verwirrt über diesen Punkt, daher werde ich mich für jede Klarstellung bedanken.
Antworten
Die Diskussion verwendet eine schlechte Notation, es sollte einen Zeitindex geben. Sie erhalten eine Liste von Tupeln$(s_t, a_t, r_t, s_{t+1})$ und dann aktualisieren Sie für jeden Besuch MC
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
wo $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, für jedes $t$in der Folge. Sie können sehen, dass die Renditen für jeden Zeitschritt ab dem Zeitschritt berechnet werden und daher nicht unbedingt über alle Zeitschritte hinweg gleich sind.