Saat memperbarui nilai keadaan-tindakan dalam metode Monte Carlo, apakah pengembalian yang sama untuk setiap pasangan keadaan-tindakan?

Jan 02 2021

Mengacu pada posting ini , dalam rumus berikut untuk memperbarui nilai state-action

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

adalah nilai $G$ (kembali) sama untuk setiap tindakan negara $(s,a)$ pasangan?

Saya sedikit bingung tentang hal ini, jadi saya akan berterima kasih atas klarifikasi apa pun.

Jawaban

2 DavidIreland Jan 02 2021 at 08:43

Pembahasan menggunakan notasi yang buruk, harus ada indeks waktu. Anda mendapatkan daftar tupel$(s_t, a_t, r_t, s_{t+1})$ dan kemudian, untuk setiap kunjungan MC, Anda memperbarui

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

dimana $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, untuk setiap $t$dalam episode tersebut. Anda dapat melihat bahwa pengembalian untuk setiap langkah waktu dihitung untuk langkah waktu dan seterusnya, sehingga tidak selalu sama di seluruh langkah waktu.