Bagaimana menangani penundaan waktu dalam pembelajaran penguatan?
Saya punya pertanyaan tentang penundaan waktu dalam pembelajaran penguatan (RL).
Di RL, seseorang memiliki status, penghargaan, dan tindakan. Biasanya diasumsikan bahwa (sejauh yang saya mengerti) ketika tindakan dijalankan pada sistem, status segera berubah dan status baru kemudian dapat dianalisis (memengaruhi reward) untuk menentukan tindakan selanjutnya. Namun, bagaimana jika terjadi penundaan waktu dalam proses ini. Misalnya, ketika beberapa tindakan dijalankan pada suatu waktu$t_1$, kita hanya bisa mendapatkan pengaruhnya pada sistem di $t_2$(Bayangkan sebuah aliran: aktuator berada di wilayah hulu dan sensor berada di wilayah hilir, sehingga akan ada jeda waktu antara tindakan dan status). Bagaimana kita menangani penundaan waktu di RL ini?
Jawaban
Sebagian besar algoritma RL mengasumsikan diskritisasi waktu (meskipun RL juga dapat diterapkan pada masalah waktu kontinu [ 1]), yaitu, secara teori, tidak terlalu penting berapa waktu aktual antara langkah waktu yang berurutan, tetapi, dalam praktiknya, Anda mungkin mengalami penundaan dalam penghargaan atau pengamatan, sehingga Anda tidak dapat melakukan misalnya pembaruan TD dengan segera. Salah satu solusi alami untuk masalah Anda adalah melacak (misalnya dalam buffer) dari hadiah yang diperoleh dan keadaan selanjutnya yang berakhir pada agen setelah mengambil tindakan tertentu dalam keadaan tertentu, atau menggunakan beberapa jenis mekanisme sinkronisasi ( perhatikan bahwa saya baru saja menemukan solusi ini, jadi saya tidak tahu apakah ini telah dilakukan atau tidak untuk menyelesaikan masalah). Dalam praktiknya, ini mungkin tidak berhasil (dalam semua kasus), misalnya, selama inferensi waktu nyata, di mana Anda perlu memutuskan dengan cepat apa yang perlu Anda lakukan bahkan tanpa informasi lengkap tentang status atau hadiah saat ini.
Perhatikan bahwa, di RL, reward sering dikatakan tertunda , dalam artian
- Anda mungkin mengetahui konsekuensi dari suatu tindakan hanya beberapa langkah waktu setelah Anda mengambilnya (menentukan konsekuensi dari suatu tindakan dikenal sebagai masalah penugasan kredit ), atau
- Anda bisa mendapatkan hadiah bukan nol hanya ketika agen mencapai tujuan / keadaan akhir (dalam kasus terakhir ini, hadiah ini juga dikenal sebagai jarang ).
Kedua masalah ini biasa terjadi di RL. Namun, jika saya memahami dengan benar kekhawatiran Anda, ini sedikit berbeda dari masalah Anda, karena masalah Anda juga melibatkan potensi penundaan negara atau bahkan hadiah yang seharusnya tiba pada langkah waktu sebelumnya, yang dapat terjadi misalnya karena sebuah sensor / aktuator yang tidak menentu atau rusak. Misalnya, jika Anda menggunakan DQN , yang biasanya membuat perkiraan keadaan saat ini dengan menggabungkan bingkai terakhir yang diambil oleh kamera Anda, jika Anda memiliki penundaan dalam bingkai yang menyebabkan urutan alami bingkai berubah, ini dapat menyebabkan ke perkiraan yang buruk dari keadaan saat ini, yang sebenarnya dapat menyebabkan peristiwa bencana. Jadi, ya, ini adalah masalah penting yang perlu ditangani.
Mengingat bahwa saya tidak terlalu paham dengan solusi aktual yang ada, saya akan merujuk Anda ke makalah Tantangan Pembelajaran Penguatan Dunia Nyata yang saya baca beberapa minggu lalu, yang menyebutkan masalah ini dan mengarahkan Anda ke pekerjaan penelitian lain yang berusaha untuk atasi itu. Lihatlah jawaban ini juga, jika Anda lebih tertarik dengan hadiah yang tertunda / jarang.