Почему регулярное Q-обучение (и DQN) завышает значения Q?
Мотивация для введения двойного DQN (и двойного Q-обучения) заключается в том, что обычное Q-обучение (или DQN) может переоценивать значение Q, но есть ли краткое объяснение того, почему оно переоценено?
Ответы
Завышение происходит из-за случайной инициализации ваших оценок Q-значения. Очевидно, они не будут идеальными (если бы они были таковыми, нам не нужно было бы узнавать истинные значения Q!). Во многих методах обучения с подкреплением, основанных на ценностях, таких как SARSA или Q-обучение, алгоритмы включают$\max$оператора при построении целевой политики. Самый очевидный случай - это, как вы упомянули, Q-обучение. Обновление обучения$$Q(s, a) = Q(s, a) + \alpha \left[r(s, a) + \gamma \max_a Q(s', a) - Q(s, a) \right] \;.$$Q-функция для рассматриваемого нами кортежа состояния-действия сдвигается в сторону максимальной Q-функции в следующем состоянии, в котором$\max$ принимается в отношении действий.
Теперь, как уже упоминалось, наши первоначальные оценки Q-значений инициализируются случайным образом. Это, естественно, приводит к неверным значениям. Следствием этого является то, что когда мы вычисляем$\max_aQ(s', a)$мы могли бы выбирать ценности, которые сильно переоцениваются .
Поскольку Q-обучение (в табличном случае) гарантированно сходится (при некоторых мягких предположениях), поэтому основным следствием смещения завышенной оценки является то, что оно сильно замедляет сходимость. Это, конечно, можно преодолеть с помощью двойного Q-обучения.
Ответ выше относится к табличному случаю Q-Learning. Идея та же самая для Deep Q-Learning, за исключением того, что Deep Q-Learning не имеет гарантий сходимости (при использовании NN в качестве аппроксиматора функции), и поэтому смещение завышенной оценки является большей проблемой, поскольку оно может означать параметры сети застревают в неоптимальных значениях.
Как кто-то спросил в комментариях о том, чтобы всегда инициализировать значения очень маленькими числами, это действительно не сработает.
Рассмотрим следующую MDP, взятую у Саттона и Барто: мы начинаем в состоянии A, из которого мы можем либо пойти вправо с наградой 0, ведущей к конечному состоянию, либо пойти налево с наградой 0 в состояние B. Из состояния B мы можем взять, скажем, 100 различных действий, все из которых приводят к конечному состоянию и имеют вознаграждение, полученное из нормального распределения со средним значением -0,1 и дисперсией 1.
Теперь ясно, что оптимальное действие из состояния A - идти направо. Однако, когда мы идем влево и выполняем действие в состоянии B, вероятность получить награду больше нуля (почти) составляет 0,5. Теперь вспомните, что значение Q смещено в сторону$r(s, a) + \max_a Q(s', a)$; из-за стохастического вознаграждения при переходе из состояния B и того факта, что мы, вероятно, увидим положительное вознаграждение$\max_a Q(s', a)$ будет положительным.
Это означает, что, когда мы делаем левое действие, значение Q (Q (A, left)) смещается в сторону положительного значения, что означает, что когда мы находимся в состоянии A, значение движения влево будет выше, чем движение вправо (что будет постепенно смещается к истинному значению 0), и поэтому, следуя $\epsilon$-жадная политика жадное действие будет идти влево, когда на самом деле это неоптимально.
Теперь, конечно, мы знаем, что истинные значения Q в конечном итоге сойдутся, но если у нас есть, скажем, 100 действий, то вы, вероятно, увидите, что время, необходимое для того, чтобы значения Q сходились к истинному значению, потенциально будет Это займет много времени, так как нам придется выбирать все завышенные значения, пока не произойдет сближение.