Czy podczas aktualizacji wartości stan-akcja w metodzie Monte Carlo zwrot jest taki sam dla każdej pary stan-akcja?

Jan 02 2021

Odwołując się do tego postu , w poniższym wzorze, aby zaktualizować wartość akcji stanu

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

jest wartością $G$ (powrót) taki sam dla każdej akcji państwowej $(s,a)$ para?

Jestem trochę zdezorientowany w tej kwestii, więc podziękuję za wszelkie wyjaśnienia.

Odpowiedzi

2 DavidIreland Jan 02 2021 at 08:43

Dyskusja używa słabej notacji, powinien istnieć indeks czasu. Otrzymasz listę krotek$(s_t, a_t, r_t, s_{t+1})$ a następnie, przy każdej wizycie MC, aktualizujesz

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

gdzie $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, dla każdego $t$w odcinku. Jak widać, zwroty dla każdego przedziału czasowego są obliczane na podstawie upływu czasu, a zatem niekoniecznie są takie same w poszczególnych krokach czasowych.