Monte Carlo 메서드에서 state-action 값을 업데이트 할 때 각 state-action 쌍에 대한 반환이 동일합니까?

Jan 02 2021

이 게시물을 참조 하면 다음 공식에서 상태 작업 값을 업데이트합니다.

$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$

의 가치입니다 $G$ (반환) 모든 상태 행동에 대해 동일 $(s,a)$ 쌍?

이 점에 대해 약간 혼란스러워서 설명해 주셔서 감사합니다.

답변

2 DavidIreland Jan 02 2021 at 08:43

토론은 잘못된 표기법을 사용하며 시간 인덱스가 있어야합니다. 튜플 목록을 얻습니다.$(s_t, a_t, r_t, s_{t+1})$ 그런 다음 MC를 방문 할 때마다

$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$

어디 $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, 각각 $t$에피소드에서. 각 시간 단계의 수익률은 시간 단계 이후로 계산되므로 시간 단계에서 반드시 동일하지는 않습니다.