Bagaimana cara memilih frekuensi pembaruan target di DQN?
Saya telah menghadapi masalah yang saya coba selesaikan dengan DQN. Pertanyaan umum yang saya miliki adalah mengenai frekuensi pembaruan target. Bagaimana seharusnya itu berubah? Bergantung pada faktor apa kita meningkatkan atau menurunkan hyperparameter ini?
Jawaban
Seperti yang Anda katakan sendiri, ini adalah hyperparameter. Karenanya, tidak seorang pun (bahkan Anda) dapat mengatakan berapa frekuensi pembaruan yang ideal. Anda harus menguji dan mencoba.
Karena itu, ingat satu hal NN target harus meniru jaringan sebenarnya sedekat mungkin. Karenanya jika Anda memperbaruinya setelah beberapa lama berjalan, maka saya pikir Anda akan mulai kehilangan akurasinya. Sebaliknya, jika Anda memperbaruinya terlalu sering, Anda akan kehilangan manfaat menggunakan jaringan target (yaitu meningkatkan kecepatan pelatihan dan mengurangi waktu pelatihan) dan pelatihan akan memakan waktu yang lebih lama.
Saran saya adalah mencoba memperbarui setelah setiap 5 hingga 8 episode.