Monte Carlo yönteminde durum eylem değerini güncellerken, dönüş her durum eylem çifti için aynı mıdır?
Bu gönderiye atıfta bulunarak , aşağıdaki formülde durum-eylem değerini güncellemek için
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
değeridir $G$ (dönüş) her durum eylemi için aynı $(s,a)$ çift?
Bu konuda biraz kafam karıştı, bu yüzden her türlü açıklamaya teşekkür edeceğim.
Yanıtlar
Tartışma zayıf gösterim kullanıyor, bir zaman indeksi olmalı. Bir demet listesi elde edersiniz$(s_t, a_t, r_t, s_{t+1})$ ve ardından, her ziyaret MC için güncelleme yaparsınız
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
nerede $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, her biri için $t$bölümde. Her bir zaman adımı için geri dönüşlerin zaman adımı için zaman aşımı için hesaplandığını ve bu nedenle zaman adımlarında aynı olması gerekmediğini görebilirsiniz.