Для эпизодических задач с увлекательным состоянием, почему мы оба не можем $\gamma=1$ а также $T= \infty$ в определении возврата?
Для эпизодических задач с увлекательным состоянием почему нельзя? $\gamma=1$ а также $T= \infty$?
В книге Саттона и Барто они говорят, что для эпизодических задач с поглощающими состояниями, которые становятся бесконечной последовательностью, возврат определяется следующим образом:
$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$
Это позволяет возвращать одинаковую прибыль вне зависимости от того, превышает ли сумма первую $T$ награды, где $T$ время окончания или по всей бесконечной последовательности, с $T=\infty$ xor $\gamma=1$.
Почему у нас не может быть обоих? Я не понимаю, как им обоим можно установить эти параметры. Похоже, что если у вас есть поглощающее состояние, награды от терминала и далее будут просто равны 0 и не будут зависеть от$\gamma$ или же $T$.
Вот полный раздел книги на странице 57 во 2-м издании.
Я думаю, что причина этого также приводит к тому, почему для оценки политики, когда
$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$
"Имеет гарантию существования и уникальности только в том случае, если $\gamma < 1$ или прекращение действия гарантировано в соответствии с $\pi$"(стр. 74). Эта часть меня тоже немного смущает, но кажется связанной.
Ответы
$T = \infty$ а также $\gamma = 1$не могут быть истинными одновременно, потому что доходность, определенная в уравнении 3.11, должна быть единым определением доходности как для продолжающихся, так и для эпизодических задач. В случае продолжающихся задач,$T = \infty$ а также $\gamma = 1$ не может быть истинным в то же время, потому что в этом случае возврат может не быть конечным (как я думаю, вы уже поняли).
Более того, обратите внимание, что в этом конкретном примере книги они предполагают, что агент попадает в поглощающее состояние, поэтому эта конкретная сумма конечна, независимо от того,$T$ конечно или $\infty$, учитывая, что как только вы войдете в состояние поглощения, вы всегда получите награду в размере $0$. Конечно, если вы обесцените эти конкретные награды, сумма все равно будет конечной. Однако в целом, если у вас был другой MDP, где поглощающее состояние недостижимо (т.е. эпизод никогда не заканчивается), то возврат не может быть конечным.