Как выбрать частоту обновления цели в DQN?
Я столкнулся с проблемой, которую пытаюсь решить с помощью DQN. Общий вопрос, который у меня есть, касается частоты обновления цели. Как это должно измениться? В зависимости от того, на какой коэффициент мы увеличиваем или уменьшаем этот гиперпараметр?
Ответы
Как вы сами сказали, это гиперпараметр. Следовательно, никто (даже вы) не может сказать, какова идеальная частота обновления. Вы должны проверить и попробовать.
Сказав это, помните одну вещь, целевая NN должна максимально точно имитировать реальную сеть. Следовательно, если вы обновите его после длинных прогонов числа, я думаю, вы начнете терять точность. Напротив, если вы обновляете его слишком часто, вы теряете преимущество использования целевой сети (которое должно повысить скорость обучения и сократить время обучения), и обучение займет больше времени.
Я предлагаю попробовать обновляться через каждые 5-8 серий.