Lors de la mise à jour de la valeur état-action dans la méthode Monte Carlo, le retour est-il le même pour chaque paire état-action?
En se référant à cet article , dans la formule suivante pour mettre à jour la valeur d'état-action
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
est la valeur de $G$ (le retour) le même pour chaque action d'état $(s,a)$ paire?
Je suis un peu confus sur ce point, je remercie donc toute clarification.
Réponses
La discussion utilise une mauvaise notation, il devrait y avoir un index temporel. Vous obtenez une liste de tuples$(s_t, a_t, r_t, s_{t+1})$ et puis, à chaque visite MC, vous mettez à jour
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
où $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, pour chaque $t$dans l'épisode. Vous pouvez voir que les retours pour chaque pas de temps sont calculés pour les pas de temps et ne sont donc pas nécessairement les mêmes d'un pas de temps à l'autre.