吸収状態の一時的なタスクの場合、なぜ私たち両方が持つことができないのですか? $\gamma=1$ そして $T= \infty$ リターンの定義では?
吸収状態の一時的なタスクの場合、なぜできないのですか? $\gamma=1$ そして $T= \infty$?
サットンとバルトの本の中で、彼らは、無限のシーケンスになる吸収状態を伴う一時的なタスクの場合、リターンは次のように定義されると述べています。
$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$
これにより、合計が最初の値を超えているかどうかに関係なく、リターンを同じにすることができます。 $T$ 報酬、どこで $T$ 終了時または完全な無限シーケンス全体で、 $T=\infty$ xor $\gamma=1$。
なぜ両方を持てないのですか?両方をこれらのパラメーターに設定する方法がわかりません。吸収状態の場合、ターミナル以降の報酬は0になり、影響を受けないようです。$\gamma$ または $T$。
これが第2版の57ページにある本の全セクションです。

この背後にある理由は、政策評価の理由にもつながると思います。
$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$
「存在と一意性が保証されているのは、 $\gamma < 1$ または終了が保証されています $\pi$"(74ページ)。この部分も少し混乱していますが、関連しているようです。
回答
$T = \infty$ そして $\gamma = 1$式3.11で定義されているリターンは、継続タスクと一時的なタスクの両方のリターンの統一された定義であると想定されているため、両方を同時に真にすることはできません。継続的なタスクの場合、$T = \infty$ そして $\gamma = 1$ その場合、リターンが有限ではない可能性があるため、同時に真にすることはできません(すでに理解していると思います)。
さらに、本のその特定の例では、エージェントが吸収状態になると想定しているため、この特定の合計は、かどうかに関係なく有限であることに注意してください。$T$ 有限であるか $\infty$、それを考えると、あなたが吸収状態に入ると、あなたは常にの報酬を得るでしょう $0$。もちろん、これらの特定の報酬を割り引いた場合でも、合計は有限になります。ただし、一般に、吸収状態に到達できない(つまり、エピソードが終了しない)別のMDPがある場合、リターンを有限にすることはできません。