Monte Carlo yönteminde durum eylem değerini güncellerken, dönüş her durum eylem çifti için aynı mıdır?

Jan 02 2021

Bu gönderiye atıfta bulunarak , aşağıdaki formülde durum-eylem değerini güncellemek için

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

değeridir $G$ (dönüş) her durum eylemi için aynı $(s,a)$ çift?

Bu konuda biraz kafam karıştı, bu yüzden her türlü açıklamaya teşekkür edeceğim.

Yanıtlar

2 DavidIreland Jan 02 2021 at 08:43

Tartışma zayıf gösterim kullanıyor, bir zaman indeksi olmalı. Bir demet listesi elde edersiniz$(s_t, a_t, r_t, s_{t+1})$ ve ardından, her ziyaret MC için güncelleme yaparsınız

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

nerede $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, her biri için $t$bölümde. Her bir zaman adımı için geri dönüşlerin zaman adımı için zaman aşımı için hesaplandığını ve bu nedenle zaman adımlarında aynı olması gerekmediğini görebilirsiniz.