Para tarefas episódicas com um estado absorvente, por que não podemos ambos ter $\gamma=1$ e $T= \infty$ na definição do retorno?

Dec 01 2020

Para tarefas episódicas com um estado absorvente, por que não $\gamma=1$ e $T= \infty$?

No livro de Sutton e Barto, eles dizem que, para tarefas episódicas com estados absorventes que se tornam uma sequência infinita, então o retorno é definido por:

$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$

Isso permite que o retorno seja o mesmo se a soma for sobre o primeiro $T$ recompensas, onde $T$ é o tempo de término ou ao longo de toda a sequência infinita, com $T=\infty$ xor $\gamma=1$.

Por que não podemos ter os dois? Não vejo como ambos podem ser configurados com esses parâmetros. Parece que, se você tiver um estado absorvente, as recompensas do terminal em diante serão apenas 0 e não serão afetadas por$\gamma$ ou $T$.

Aqui está a seção completa do livro na página 57 na 2ª edição

Acho que o raciocínio por trás disso também leva a por que para avaliação de políticas, onde

$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$

"Tem garantia de existência e exclusividade apenas se $\gamma < 1$ ou a rescisão é garantida sob $\pi$"(página 74). Esta parte também estou um pouco confusa, mas parece relacionada.

Respostas

3 nbro Dec 01 2020 at 08:42

$T = \infty$ e $\gamma = 1$não podem ser ambas verdadeiras, ao mesmo tempo, porque o retorno definido na equação 3.11 é suposto ser um unificada definição do retorno para ambas as tarefas contínuas e episódicas. No caso de tarefas contínuas,$T = \infty$ e $\gamma = 1$ não pode ser verdade ao mesmo tempo, porque o retorno pode não ser finito nesse caso (como eu acho que você já entendeu).

Além disso, observe que, naquele exemplo específico do livro, eles assumem que o agente acaba em um estado absorvente, então essa soma específica é finita, não importa se$T$ é finito ou $\infty$, visto que, uma vez que você entra no estado absorvente, você sempre receberá uma recompensa de $0$. Claro, se você descontar essas recompensas específicas, a soma ainda será finita. No entanto, em geral, se você tivesse um MDP diferente em que o estado de absorção não fosse alcançável (ou seja, o episódio nunca termina), o retorno não poderia ser finito.