Pour les tâches épisodiques avec un état absorbant, pourquoi ne pouvons-nous pas tous les deux $\gamma=1$ et $T= \infty$ dans la définition du retour?
Pour les tâches épisodiques avec un état absorbant, pourquoi ne pas $\gamma=1$ et $T= \infty$?
Dans le livre de Sutton et Barto, ils disent que, pour les tâches épisodiques avec des états absorbants qui deviennent une séquence infinie, alors le retour est défini par:
$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$
Cela permet au retour d'être le même que la somme soit supérieure à la première $T$ récompenses, où $T$ est le moment de la fin ou sur la séquence infinie complète, avec $T=\infty$ xor $\gamma=1$.
Pourquoi ne pouvons-nous pas avoir les deux? Je ne vois pas comment ils peuvent tous les deux être réglés sur ces paramètres. Il semble que si vous avez un état absorbant, les récompenses à partir du terminal seront simplement de 0 et ne seront pas affectées par$\gamma$ ou alors $T$.
Voici la section complète du livre à la page 57 de la 2e édition

Je pense que le raisonnement derrière cela conduit également à expliquer pourquoi, pour l'évaluation
$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$
"A une garantie d'existence et d'unicité uniquement si $\gamma < 1$ ou la résiliation est garantie $\pi$"(page 74). Cette partie me déroute aussi un peu, mais elle me semble liée.
Réponses
$T = \infty$ et $\gamma = 1$ne peut pas être vrai à la fois parce que le rendement défini dans l'équation 3.11 est censé être une définition unifiée du rendement pour les tâches continues et épisodiques. Dans le cas de tâches continues,$T = \infty$ et $\gamma = 1$ ne peut pas être vrai en même temps, car le rendement peut ne pas être fini dans ce cas (comme je pense que vous l'avez déjà compris).
De plus, notez que, dans cet exemple spécifique du livre, ils supposent que l'agent se retrouve dans un état absorbant, donc cette somme spécifique est finie, peu importe si$T$ est fini ou $\infty$, étant donné que, une fois que vous entrez dans l'état absorbant, vous obtiendrez toujours une récompense de $0$. Bien sûr, si vous actualisez ces récompenses spécifiques, la somme sera toujours finie. Cependant, en général, si vous aviez un MDP différent où l'état d'absorption n'est pas accessible (c'est-à-dire que l'épisode ne se termine jamais), alors le retour ne peut pas être fini.