Ist bei der Aktualisierung des Zustandsaktionswerts in der Monte-Carlo-Methode die Rückgabe für jedes Zustandsaktionspaar gleich?

Jan 02 2021

Verweisen Sie auf diesen Beitrag in der folgenden Formel, um den Statusaktionswert zu aktualisieren

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

ist der Wert von $G$ (die Rückkehr) für jede staatliche Aktion gleich $(s,a)$ Paar?

Ich bin etwas verwirrt über diesen Punkt, daher werde ich mich für jede Klarstellung bedanken.

Antworten

2 DavidIreland Jan 02 2021 at 08:43

Die Diskussion verwendet eine schlechte Notation, es sollte einen Zeitindex geben. Sie erhalten eine Liste von Tupeln$(s_t, a_t, r_t, s_{t+1})$ und dann aktualisieren Sie für jeden Besuch MC

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

wo $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, für jedes $t$in der Folge. Sie können sehen, dass die Renditen für jeden Zeitschritt ab dem Zeitschritt berechnet werden und daher nicht unbedingt über alle Zeitschritte hinweg gleich sind.