Czy podczas aktualizacji wartości stan-akcja w metodzie Monte Carlo zwrot jest taki sam dla każdej pary stan-akcja?
Odwołując się do tego postu , w poniższym wzorze, aby zaktualizować wartość akcji stanu
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
jest wartością $G$ (powrót) taki sam dla każdej akcji państwowej $(s,a)$ para?
Jestem trochę zdezorientowany w tej kwestii, więc podziękuję za wszelkie wyjaśnienia.
Odpowiedzi
Dyskusja używa słabej notacji, powinien istnieć indeks czasu. Otrzymasz listę krotek$(s_t, a_t, r_t, s_{t+1})$ a następnie, przy każdej wizycie MC, aktualizujesz
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
gdzie $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, dla każdego $t$w odcinku. Jak widać, zwroty dla każdego przedziału czasowego są obliczane na podstawie upływu czasu, a zatem niekoniecznie są takie same w poszczególnych krokach czasowych.