Al actualizar el valor de acción de estado en el método de Monte Carlo, ¿el retorno es el mismo para cada par de acción de estado?
Refiriéndose a esta publicación , en la siguiente fórmula para actualizar el valor de acción de estado
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
es el valor de $G$ (el retorno) lo mismo para cada acción estatal $(s,a)$ ¿par?
Estoy un poco confundido sobre este punto, así que agradeceré cualquier aclaración.
Respuestas
La discusión usa una notación pobre, debería haber un índice de tiempo. Obtienes una lista de tuplas$(s_t, a_t, r_t, s_{t+1})$ y luego, por cada visita MC, actualiza
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
dónde $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, para cada $t$en el episodio. Puede ver que los retornos para cada paso de tiempo se calculan para el paso de tiempo en adelante, por lo que no son necesariamente los mismos en los pasos de tiempo.