DQN에서 대상의 업데이트 빈도를 어떻게 선택해야합니까?
DQN으로 해결하려는 문제를 다루고 있습니다. 내가 가진 일반적인 질문은 대상의 업데이트 빈도에 관한 것입니다. 어떻게 바뀌어야합니까? 어떤 요인에 따라이 하이퍼 파라미터를 늘리거나 줄입니까?
답변
1 Kashan
당신이 말했듯이 그것은 초 매개 변수입니다. 따라서 이상적인 업데이트 빈도가 무엇인지 아무도 말할 수 없습니다. 테스트하고 시도해야합니다.
하지만 타겟 NN이 가능한 한 실제 네트워크를 모방해야한다는 점을 기억하십시오. 따라서 장시간 실행 한 후에 업데이트하면 정확도가 떨어지기 시작할 것이라고 생각합니다. 반대로 너무 자주 업데이트하면 대상 네트워크를 사용하는 이점 (훈련 속도를 높이고 훈련 시간을 줄이는 것)을 잃고 훈련에 더 많은 시간이 걸립니다.
내 제안은 매 5 ~ 8 개의 에피소드 후에 업데이트를 시도하는 것입니다.