Al actualizar el valor de acción de estado en el método de Monte Carlo, ¿el retorno es el mismo para cada par de acción de estado?

Jan 02 2021

Refiriéndose a esta publicación , en la siguiente fórmula para actualizar el valor de acción de estado

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

es el valor de $G$ (el retorno) lo mismo para cada acción estatal $(s,a)$ ¿par?

Estoy un poco confundido sobre este punto, así que agradeceré cualquier aclaración.

Respuestas

2 DavidIreland Jan 02 2021 at 08:43

La discusión usa una notación pobre, debería haber un índice de tiempo. Obtienes una lista de tuplas$(s_t, a_t, r_t, s_{t+1})$ y luego, por cada visita MC, actualiza

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

dónde $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, para cada $t$en el episodio. Puede ver que los retornos para cada paso de tiempo se calculan para el paso de tiempo en adelante, por lo que no son necesariamente los mismos en los pasos de tiempo.