W przypadku zadań epizodycznych w stanie wchłaniania, dlaczego nie możemy mieć oboje $\gamma=1$ i $T= \infty$ w definicji zwrotu?

Dec 01 2020

W przypadku zadań epizodycznych w stanie wchłaniania, dlaczego nie $\gamma=1$ i $T= \infty$?

W książce Suttona i Barto mówią, że w przypadku zadań epizodycznych ze stanami absorbującymi, które stają się sekwencją nieskończoną, zwrot jest definiowany przez:

$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$

Dzięki temu zwrot będzie taki sam, niezależnie od tego, czy suma jest wyższa niż pierwsza $T$ nagrody, gdzie $T$ jest czasem zakończenia lub w pełnej nieskończonej sekwencji, z $T=\infty$ xor $\gamma=1$.

Dlaczego nie możemy mieć obu? Nie rozumiem, jak oba można ustawić na te parametry. Wygląda na to, że jeśli masz stan pochłaniania, nagrody od terminala będą wynosić 0 i nie będą miały na nie wpływu$\gamma$ lub $T$.

Oto pełna sekcja książki na stronie 57 w 2. wydaniu

Myślę, że uzasadnienie tego prowadzi również do tego, dlaczego warto dokonać oceny polityki, gdzie

$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$

„Ma gwarancję istnienia i wyjątkowości tylko wtedy, gdy $\gamma < 1$ lub wypowiedzenie jest gwarantowane w ramach $\pi$(str. 74). Ta część też mnie trochę zagubiła, ale wydaje mi się powiązana.

Odpowiedzi

3 nbro Dec 01 2020 at 08:42

$T = \infty$ i $\gamma = 1$nie może być jednocześnie prawdziwe, ponieważ zwrot zdefiniowany w równaniu 3.11 ma być ujednoliconą definicją zwrotu zarówno dla zadań ciągłych, jak i epizodycznych. W przypadku zadań kontynuowanych,$T = \infty$ i $\gamma = 1$ nie może być jednocześnie prawdziwe, ponieważ w tym przypadku zwrot może nie być skończony (jak myślę, że już zrozumiałeś).

Co więcej, zauważ, że w tym konkretnym przykładzie książki zakładają, że agent kończy się w stanie wchłaniania, więc ta konkretna suma jest skończona, bez względu na to, czy$T$ jest skończona lub $\infty$biorąc pod uwagę, że gdy wejdziesz w stan wchłaniania, zawsze otrzymasz nagrodę w wysokości $0$. Oczywiście, jeśli zdyskontujesz te konkretne nagrody, kwota nadal będzie ograniczona. Jednak ogólnie rzecz biorąc, jeśli miałeś inny MDP, w którym stan pochłaniania jest nieosiągalny (tj. Odcinek nigdy się nie kończy), to powrót nie może być skończony.