เมื่ออัปเดตค่า state-action ในวิธีมอนติคาร์โลผลตอบแทนจะเหมือนกันสำหรับคู่ state-action แต่ละคู่หรือไม่
อ้างถึงโพสต์นี้ในสูตรต่อไปนี้เพื่ออัปเดตค่าสถานะการดำเนินการ
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
คือค่าของ $G$ (ผลตอบแทน) เหมือนกันสำหรับทุกการกระทำของรัฐ $(s,a)$ คู่?
ฉันสับสนเล็กน้อยเกี่ยวกับประเด็นนี้ดังนั้นฉันจะขอบคุณคำชี้แจงใด ๆ
คำตอบ
2 DavidIreland
การอภิปรายใช้สัญกรณ์ที่ไม่ดีควรมีดัชนีเวลา คุณได้รับรายชื่อสิ่งมีชีวิต$(s_t, a_t, r_t, s_{t+1})$ จากนั้นสำหรับ MC ที่มาเยี่ยมทุกครั้งคุณจะอัปเดต
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
ที่ไหน $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, แต่ละ $t$ในตอนนี้ คุณจะเห็นได้ว่าผลตอบแทนของแต่ละขั้นตอนถูกคำนวณสำหรับการประทับเวลาเป็นต้นไปและไม่จำเป็นต้องเหมือนกันในทุกขั้นตอน