Untuk tugas episodik dengan keadaan menyerap, mengapa kita berdua tidak bisa $\gamma=1$ dan $T= \infty$ dalam definisi pengembalian?
Untuk tugas episodik dengan keadaan menyerap, mengapa tidak bisa $\gamma=1$ dan $T= \infty$?
Dalam buku Sutton dan Barto, mereka mengatakan bahwa, untuk tugas episodik dengan keadaan penyerap yang menjadi urutan tak terbatas, maka pengembaliannya ditentukan oleh:
$$G_t=\sum_{k=t+1}^{T}\gamma^{k-t-1}R_k$$
Ini memungkinkan pengembalian menjadi sama apakah jumlahnya di atas yang pertama $T$ imbalan, di mana $T$ adalah waktu penghentian atau lebih dari urutan tak terbatas penuh, dengan $T=\infty$ xor $\gamma=1$.
Mengapa kita tidak bisa memiliki keduanya? Saya tidak melihat bagaimana keduanya dapat disetel ke parameter tersebut. Sepertinya, jika Anda memiliki status menyerap, hadiah dari terminal dan seterusnya hanya akan menjadi 0 dan tidak terpengaruh oleh$\gamma$ atau $T$.
Inilah bagian lengkap dari buku di halaman 57 dalam edisi ke-2

Saya kira alasan dibalik ini juga mengarah pada mengapa untuk evaluasi kebijakan dimana
$$v_\pi(s)=\sum_a\pi(a|s)\sum_{s',r}p(s',r|s,a)[r+\gamma v_\pi(s')]$$
"Memiliki jaminan eksistensi dan keunikan hanya jika $\gamma < 1$ atau pengakhiran dijamin di bawah $\pi$"(halaman 74). Bagian ini juga membuat saya agak bingung, tapi sepertinya ada kaitannya.
Jawaban
$T = \infty$ dan $\gamma = 1$tidak bisa keduanya benar pada saat yang sama karena kembalinya didefinisikan dalam persamaan 3.11 seharusnya menjadi bersatu definisi dari imbalan baik tugas melanjutkan dan episodik. Dalam kasus tugas berkelanjutan,$T = \infty$ dan $\gamma = 1$ tidak bisa benar pada saat yang sama, karena pengembaliannya mungkin tidak terbatas dalam kasus itu (seperti yang saya pikir sudah Anda pahami).
Selain itu, perhatikan bahwa, dalam contoh spesifik buku tersebut, mereka berasumsi bahwa agen berakhir dalam keadaan menyerap, jadi jumlah spesifik ini terbatas, tidak peduli apakah$T$ terbatas atau $\infty$, mengingat, begitu Anda memasuki kondisi menyerap, Anda akan selalu mendapatkan hadiah sebesar $0$. Tentu saja, jika Anda mendiskon hadiah khusus itu, jumlahnya akan tetap terbatas. Namun, secara umum, jika Anda memiliki MDP berbeda di mana status penyerapan tidak dapat dicapai (yaitu episode tidak pernah berakhir), maka pengembalian tidak dapat terbatas.