Ao atualizar o valor da ação de estado no método Monte Carlo, o retorno é o mesmo para cada par de ação de estado?

Jan 02 2021

Referindo-se a esta postagem , na seguinte fórmula para atualizar o valor da ação do estado

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

é o valor de $G$ (o retorno) o mesmo para cada ação-estado $(s,a)$ par?

Estou um pouco confuso sobre este ponto, então agradecerei qualquer esclarecimento.

Respostas

2 DavidIreland Jan 02 2021 at 08:43

A discussão usa uma notação pobre, deve haver um índice de tempo. Você obtém uma lista de tuplas$(s_t, a_t, r_t, s_{t+1})$ e então, para cada visita MC, você atualiza

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

Onde $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, para cada $t$no episódio. Você pode ver que os retornos para cada etapa de tempo são calculados para cada etapa de tempo em diante e, portanto, não são necessariamente os mesmos entre as etapas de tempo.