При обновлении значения «состояние-действие» в методе Монте-Карло возвращается ли оно одинаковым для каждой пары «состояние-действие»?
Ссылаясь на этот пост , в следующей формуле обновите значение состояния-действия
$$ Q(s,a) = Q(s,a) + \alpha (G − Q(s,a)),$$
ценность $G$ (возврат) то же самое для каждого государственного действия $(s,a)$ пара?
Я немного сбит с толку по этому поводу, поэтому буду благодарен за любые разъяснения.
Ответы
В обсуждении используются плохие обозначения, должен быть указатель времени. Вы получаете список кортежей$(s_t, a_t, r_t, s_{t+1})$ а затем при каждом посещении MC вы обновляете
$$Q(s_t, a_t) = Q(s_t, a_t) + \alpha (G_t - Q(s_t, a_t))\;;$$
где $G_t = \sum_{k=0}^\infty \gamma^k r_{t+k}$, для каждого $t$в эпизоде. Вы можете видеть, что отдача для каждого временного шага рассчитывается для временного шага вперед, и поэтому не обязательно одинакова для временных шагов.