Saat memperbarui nilai keadaan-tindakan dalam metode Monte Carlo, apakah pengembalian yang sama untuk setiap pasangan keadaan-tindakan?
Mengacu pada posting ini , dalam rumus berikut untuk memperbarui nilai state-action
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
adalah nilai $G$ (kembali) sama untuk setiap tindakan negara $(s,a)$ pasangan?
Saya sedikit bingung tentang hal ini, jadi saya akan berterima kasih atas klarifikasi apa pun.
Jawaban
Pembahasan menggunakan notasi yang buruk, harus ada indeks waktu. Anda mendapatkan daftar tupel$(s_t, a_t, r_t, s_{t+1})$ dan kemudian, untuk setiap kunjungan MC, Anda memperbarui
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
dimana $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, untuk setiap $t$dalam episode tersebut. Anda dapat melihat bahwa pengembalian untuk setiap langkah waktu dihitung untuk langkah waktu dan seterusnya, sehingga tidak selalu sama di seluruh langkah waktu.