เมื่ออัปเดตค่า state-action ในวิธีมอนติคาร์โลผลตอบแทนจะเหมือนกันสำหรับคู่ state-action แต่ละคู่หรือไม่

Jan 02 2021

อ้างถึงโพสต์นี้ในสูตรต่อไปนี้เพื่ออัปเดตค่าสถานะการดำเนินการ

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

คือค่าของ $G$ (ผลตอบแทน) เหมือนกันสำหรับทุกการกระทำของรัฐ $(s,a)$ คู่?

ฉันสับสนเล็กน้อยเกี่ยวกับประเด็นนี้ดังนั้นฉันจะขอบคุณคำชี้แจงใด ๆ

คำตอบ

2 DavidIreland Jan 02 2021 at 08:43

การอภิปรายใช้สัญกรณ์ที่ไม่ดีควรมีดัชนีเวลา คุณได้รับรายชื่อสิ่งมีชีวิต$(s_t, a_t, r_t, s_{t+1})$ จากนั้นสำหรับ MC ที่มาเยี่ยมทุกครั้งคุณจะอัปเดต

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

ที่ไหน $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, แต่ละ $t$ในตอนนี้ คุณจะเห็นได้ว่าผลตอบแทนของแต่ละขั้นตอนถูกคำนวณสำหรับการประทับเวลาเป็นต้นไปและไม่จำเป็นต้องเหมือนกันในทุกขั้นตอน