Warum können wir nicht beide episodische Aufgaben mit einem absorbierenden Zustand haben? $\gamma=1$ und $T= \infty$ in der Definition der Rendite?
Warum nicht für episodische Aufgaben mit einem absorbierenden Zustand? $\gamma=1$ und $T= \infty$?
In Sutton und Bartos Buch heißt es, dass für episodische Aufgaben mit absorbierenden Zuständen, die zu einer unendlichen Sequenz werden, die Rückkehr definiert wird durch:
$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$
Dadurch kann die Rendite gleich sein, unabhängig davon, ob die Summe über der ersten liegt $T$ Belohnungen, wo $T$ ist der Zeitpunkt der Beendigung oder über die gesamte unendliche Folge mit $T=\infty$ xor $\gamma=1$.
Warum können wir nicht beide haben? Ich sehe nicht, wie beide auf diese Parameter eingestellt werden können. Es scheint, als ob, wenn Sie einen absorbierenden Zustand haben, die Belohnungen ab Terminal nur 0 sind und nicht von beeinflusst werden$\gamma$ oder $T$.
Hier ist der vollständige Abschnitt des Buches auf Seite 57 in der 2. Ausgabe

Ich denke, die Argumentation dahinter führt auch dazu, warum für die Politikbewertung wo
$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$
"Hat eine Existenz- und Einzigartigkeitsgarantie nur wenn $\gamma < 1$ oder Kündigung ist garantiert unter $\pi$"(Seite 74). Dieser Teil ist auch ein bisschen verwirrt, scheint aber verwandt zu sein.
Antworten
$T = \infty$ und $\gamma = 1$können nicht beide wahr zugleich sein , weil die in Gleichung 3.11 definierten Rückkehr soll eine sein einheitliche Definition der Rückkehr beiden fortgeführten und episodischen Aufgaben. Bei fortlaufenden Aufgaben$T = \infty$ und $\gamma = 1$ kann nicht gleichzeitig wahr sein, da die Rendite in diesem Fall möglicherweise nicht endlich ist (wie Sie wahrscheinlich bereits verstanden haben).
Beachten Sie außerdem, dass sie in diesem speziellen Beispiel des Buches davon ausgehen, dass der Agent in einem absorbierenden Zustand endet, sodass diese spezifische Summe endlich ist, egal ob$T$ ist endlich oder $\infty$Wenn Sie in den absorbierenden Zustand eintreten, erhalten Sie immer eine Belohnung von $0$. Wenn Sie diese spezifischen Belohnungen rabattieren, ist die Summe natürlich immer noch begrenzt. Wenn Sie jedoch ein anderes MDP hatten, bei dem der absorbierende Zustand nicht erreichbar ist (dh die Episode endet nie), kann die Rückkehr im Allgemeinen nicht endlich sein.