Neden düzenli Q-öğrenme (ve DQN) Q değerlerini abartıyor?

Jan 10 2021

Çift DQN'nin (ve çift Q-öğrenmenin) tanıtılması için motivasyon , düzenli Q-öğrenmenin (veya DQN) Q değerini abartabilmesidir, ancak neden fazla tahmin edildiğine dair kısa bir açıklama var mı?

Yanıtlar

3 DavidIreland Jan 11 2021 at 00:44

Fazla tahmin, Q değeri tahminlerinizin rastgele başlatılmasından gelir. Açıkçası bunlar mükemmel olmayacak (eğer öyleyse gerçek Q-değerlerini öğrenmemiz gerekmeyecek!). SARSA veya Q-öğrenme gibi birçok değere dayalı pekiştirmeli öğrenme yöntemlerinde, algoritmalar aşağıdakileri içerir:$\max$hedef politikanın oluşturulmasında operatör. En bariz durum, belirttiğiniz gibi, Q-öğrenmedir. Öğrenme güncellemesi$$Q(s, a) = Q(s, a) + \alpha \left[r(s, a) + \gamma \max_a Q(s', a) - Q(s, a) \right] \;.$$Düşündüğümüz durum eylem dizisi için Q fonksiyonu, bir sonraki durumda maksimum Q fonksiyonuna kaydırılır .$\max$ eylemlere göre alınır.

Şimdi, belirtildiği gibi, Q değerlerine ilişkin ilk tahminlerimiz rastgele olarak başlatılır. Bu doğal olarak yanlış değerlere yol açar. Bunun sonucu, hesapladığımızda$\max_aQ(s', a)$fazlasıyla abartılan değerleri seçiyor olabiliriz .

Q-öğrenmenin (tablo durumunda) yakınsaması garanti edildiği için (bazı hafif varsayımlar altında), aşırı tahmin önyargısının ana sonucu yakınsamayı ciddi şekilde yavaşlatmasıdır. Bu elbette Çifte Q-öğrenme ile aşılabilir.

Yukarıdaki cevap, tablo şeklindeki Q-Öğrenme vakası içindir. Fikir, Derin Q-Öğrenme için aynıdır, ancak Derin Q-öğrenmenin yakınsama garantisi olmadığını unutmayın (fonksiyon yaklaştırıcısı olarak bir NN kullanıldığında) ve bu nedenle aşırı tahmin önyargısı, parametreler anlamına gelebileceği için daha çok bir problemdir. ağın% 50'si alt-optimal değerlerde sıkışıp kalıyor.

Birisinin yorumlarda, değerlerin her zaman çok düşük sayılar olarak başlatılmasıyla ilgili sorduğu gibi, bu gerçekten işe yaramazdı.

Sutton ve Barto'dan alınan şu MDP'yi düşünün: A durumunda başlıyoruz, bu durumda ya ödül 0 ile bir uç duruma doğru sağa gidebiliriz ya da ödül 0 ile sola, B durumuna gidebiliriz. B durumundan, diyebiliriz, 100 farklı eylem, hepsi bir terminal duruma yol açar ve ortalama -0.1 ve varyans 1 ile Normal dağılımdan alınan ödül.

Şimdi, açıkça A durumundan en uygun eylem sağa gitmektir. Bununla birlikte, sola gidip B durumunda bir işlem yaptığımızda, 0'dan büyük bir ödül alma (neredeyse) 0,5 olasılık vardır. Şimdi, Q değerinin doğru kaydırıldığını hatırlayın.$r(s, a) + \max_a Q(s', a)$; B durumundan çıkışta elde edilen stokastik ödüller ve muhtemelen olumlu bir ödül göreceğimiz gerçeği nedeniyle$\max_a Q(s', a)$ olumlu olacak.

Bu, sol eylemi yaptığımızda Q değerinin (Q (A, sol)) pozitif bir değere kaydırıldığı anlamına gelir, yani A durumunda olduğumuzda sola hareket etme değeri sağa hareket etmekten daha yüksek olacaktır ( kademeli olarak 0'ın gerçek değerine doğru kaydırılır) ve bu nedenle, $\epsilon$- açgözlü politika, açgözlü eylem, aslında bu optimalin altında olduğunda sola gitmek olacaktır.

Şimdi, tabii ki, gerçek Q değerlerinin sonunda yakınsadığını biliyoruz, ancak diyelim ki 100 eylemimiz varsa, o zaman muhtemelen Q değerlerinin gerçek değere yakınsaması için geçen sürenin potansiyel olarak olacağını görebilirsiniz. Yakınsama elde edene kadar tüm fazla tahmin edilen değerleri seçmeye devam etmemiz gerekeceğinden uzun bir süre.