Quando si aggiorna il valore stato-azione nel metodo Monte Carlo, il ritorno è lo stesso per ogni coppia stato-azione?

Jan 02 2021

Facendo riferimento a questo post , nella seguente formula per aggiornare il valore di stato-azione

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

è il valore di $G$ (il ritorno) lo stesso per ogni azione di stato $(s,a)$ paio?

Sono un po 'confuso su questo punto, quindi ringrazierò ogni chiarimento.

Risposte

2 DavidIreland Jan 02 2021 at 08:43

La discussione utilizza una cattiva notazione, dovrebbe esserci un indice temporale. Ottieni un elenco di tuple$(s_t, a_t, r_t, s_{t+1})$ e poi, ad ogni visita MC, ti aggiorni

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

dove $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, per ciascuno $t$nell'episodio. Puoi vedere che i rendimenti per ogni fase temporale sono calcolati dal passo temporale in poi e quindi non sono necessariamente gli stessi in tutti i passaggi temporali.