Apa hambatan terbesar untuk mendapatkan RL dalam produksi?
Saya mempelajari state of the art of Reinforcement Learning, dan maksud saya adalah kita melihat begitu banyak aplikasi di dunia nyata menggunakan algoritme pembelajaran yang diawasi dan tidak diawasi dalam produksi, tetapi saya tidak melihat hal yang sama dengan algoritme Reinforcement Learning.
Apa hambatan terbesar untuk mendapatkan RL dalam produksi?
Jawaban
Ada makalah yang relatif baru yang membahas masalah ini: Challenges of real-world reinforcement learning (2019) oleh Gabriel Dulac-Arnold et al., Yang menyajikan semua tantangan yang perlu diatasi untuk menghasilkan RL ke masalah dunia nyata, saat ini pendekatan / solusi untuk memecahkan tantangan, dan metrik untuk mengevaluasinya. Saya hanya akan mencantumkannya (berdasarkan catatan yang saya buat beberapa minggu yang lalu). Anda harus membaca koran untuk lebih jelasnya. Bagaimanapun, untuk orang yang akrab dengan RL, mereka akan cukup jelas.
- Pelatihan batch off-line dan off-policy
- Salah satu solusi saat ini adalah pengambilan sampel penting
- Belajar di sistem nyata dari sampel terbatas (inefisiensi sampel)
- Solusi: MAML, gunakan demonstrasi ahli untuk mem-bootstrap agen, pendekatan berbasis model
- Ruang keadaan dan aksi berkelanjutan berdimensi tinggi
- Solusi: AE-DQN, DRRN
- Batasan keamanan yang memuaskan
- Solusi: MDP terbatas, strategi eksplorasi yang aman, dll.
- Observabilitas parsial dan non-stasioneritas
- Solusi untuk observasi parsial: gabungkan sejarah dalam observasi, jaringan saraf berulang, dll.
- Solusi untuk non-stasioneritas: pengacakan domain atau identifikasi sistem
- Fungsi hadiah yang tidak ditentukan dan multi-tujuan
- Solusi: CVaR, DQN Distribusi
- Dapat dijelaskan
- Inferensi waktu nyata
- Penundaan sistem (lihat juga ini dan ini jawaban)
Ada juga makalah yang lebih baru dan terkait . Investigasi empiris dari tantangan pembelajaran penguatan dunia nyata (2020) oleh Gabriel Dulac-Arnold dkk, dan di sini Anda memiliki kode yang terkait dengan eksperimen.
Namun, perhatikan bahwa RL (khususnya, bandit) sudah digunakan untuk memecahkan setidaknya satu masalah dunia nyata [ 1 , 2 ]. Lihat juga jawaban ini .
Hambatan teknis: Setidaknya harus ada hambatan besar yang masuk akal:
- Teknik trial-and-error membuat model sulit dipelajari (terlalu banyak), dibandingkan dengan data yang diawasi yang siap digunakan
- Jumlah langkah waktu (yang biasanya sama dengan jumlah tindakan agen dalam lintasan) besar, sehingga eksplorasi brute force tidak akan bekerja karena jumlah percobaan untuk menemukan kesalahan adalah eksponensial, meskipun imbalan negatif dapat membantu mempersingkat. pohon kekerasan.
- RL kehidupan nyata membutuhkan jumlah episode yang tidak terbatas (untuk setiap episode, urutan tindakan harus dipelajari), dan pelatihan tambahan semakin lama semakin sulit dengan data yang lebih dieksplorasi, kecuali beberapa data yang lalu dan tidak terkait lagi dihapus , sama seperti manusia, kita melupakan sebagian dari masa lalu untuk belajar lebih banyak, lebih mengingat masa kini.
Hambatan teknis pada awalnya merupakan hambatan untuk menerapkannya dalam bisnis. Orang mungkin menghasilkan beberapa data yang diawasi secara manual dengan agak cepat, dan dengan demikian pembelajaran yang diawasi biasanya dipilih terlebih dahulu, tidak ada yang ingin mencoba RL.
Sumber daya manusia yang lebih sulit ditemukan: Insinyur AI dengan pengalaman dalam pembelajaran yang diawasi lebih populer dan lebih mudah untuk menemukannya; lebih sedikit pekerjaan dengan RL, sehingga proyek bisnis tidak dapat dilakukan dengan mudah jika menggunakan RL.
Namun, dari sudut pandang saya, RL sangat menjanjikan di masa depan karena entitas AI sekarang semakin mandiri.