Khi cập nhật giá trị hành động trạng thái trong phương pháp Monte Carlo, kết quả trả về có giống nhau cho mỗi cặp hành động trạng thái không?

Jan 02 2021

Đề cập đến bài đăng này , trong công thức sau để cập nhật giá trị hành động trạng thái

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

là giá trị của $G$ (lợi nhuận) giống nhau cho mọi hành động trạng thái $(s,a)$ đôi?

Tôi hơi bối rối về điểm này, vì vậy tôi sẽ cảm ơn mọi sự giải thích rõ ràng.

Trả lời

2 DavidIreland Jan 02 2021 at 08:43

Cuộc thảo luận sử dụng ký hiệu kém, cần có chỉ mục thời gian. Bạn nhận được một danh sách các bộ giá trị$(s_t, a_t, r_t, s_{t+1})$ và sau đó, đối với mỗi MC truy cập, bạn cập nhật

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

Ở đâu $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, cho mỗi $t$trong tập phim. Bạn có thể thấy rằng lợi nhuận cho mỗi bước thời gian được tính cho bước thời gian trở đi và do đó không nhất thiết phải giống nhau giữa các bước thời gian.