नियमित क्यू-लर्निंग (और DQN) क्यू मूल्यों को क्यों कम करता है?
डबल डीक्यूएन (और डबल क्यू-लर्निंग) की शुरूआत के लिए प्रेरणा यह है कि नियमित क्यू-लर्निंग (या डीक्यूएन) क्यू मूल्य को कम कर सकता है, लेकिन क्या यह संक्षिप्त विवरण है कि इसे क्यों कम करके आंका गया है?
जवाब
Overestimation आपके Q- मूल्य अनुमानों के यादृच्छिक आरंभीकरण से आता है। स्पष्ट रूप से ये सही नहीं होंगे (यदि वे थे तो हमें सही क्यू-मूल्यों को सीखने की आवश्यकता नहीं होगी!)। कई मूल्य आधारित सुदृढीकरण सीखने के तरीकों जैसे SARSA या Q- एल्गोरिदम सीखने में शामिल हैं a$\max$लक्ष्य नीति के निर्माण में ऑपरेटर। सबसे स्पष्ट मामला है, जैसा कि आपने उल्लेख किया है, क्यू-लर्निंग। सीखने का अद्यतन है$$Q(s, a) = Q(s, a) + \alpha \left[r(s, a) + \gamma \max_a Q(s', a) - Q(s, a) \right] \;.$$जिस स्टेट-एक्शन टपल पर हम विचार कर रहे हैं, उसके लिए Q-function अगले राज्य में अधिकतम Q-function की ओर स्थानांतरित कर दिया गया है, जहाँ$\max$ कार्यों के संबंध में लिया जाता है।
अब, जैसा कि उल्लेख किया गया है कि क्यू-मूल्यों के हमारे प्रारंभिक अनुमानों को यादृच्छिक रूप से आरंभ किया गया है। यह स्वाभाविक रूप से गलत मूल्यों की ओर जाता है। इसका परिणाम यह है कि जब हम गणना करते हैं$\max_aQ(s', a)$हम ऐसे मूल्यों का चयन कर सकते हैं जो अत्यधिक कम करके आंका गया हो ।
जैसा कि क्यू-लर्निंग (सारणीबद्ध मामले में) को कुछ हल्के अनुमानों के तहत अभिसरण करने की गारंटी दी जाती है, इसलिए ओवरस्टीमेशन पूर्वाग्रह का मुख्य परिणाम यह है कि अभिसरण धीमा हो जाता है। इस कोर्स को डबल क्यू-लर्निंग से दूर किया जा सकता है।
उपरोक्त उत्तर सारणी क्यू-लर्निंग केस के लिए है। डीप क्यू-लर्निंग के लिए विचार समान है, सिवाय ध्यान दें कि डीप क्यू-लर्निंग की कोई अभिसरण गारंटी नहीं है (जब फ़ंक्शन एनकेटर के रूप में एनएन का उपयोग करते हुए) और इसलिए ओवरस्टीमेशन पूर्वाग्रह एक समस्या से अधिक है क्योंकि यह मापदंडों का मतलब हो सकता है नेटवर्क के उप-इष्टतम मूल्यों में फंस जाते हैं।
जैसा कि किसी ने टिप्पणियों में हमेशा बहुत कम संख्या होने के लिए मूल्यों को शुरू करने के बारे में पूछा, यह वास्तव में काम नहीं करेगा।
सटन और बार्टो से लिए गए निम्न एमडीपी पर विचार करें: हम राज्य ए में शुरू करते हैं, जिसमें से हम या तो इनाम 0 के साथ दाएं जा सकते हैं या टर्मिनल राज्य के लिए अग्रणी हो सकते हैं या इनाम 0 से राज्य बी के साथ बाएं जा सकते हैं। राज्य बी से हम ले सकते हैं, कहते हैं, 100 अलग-अलग क्रियाएं, जिनमें से सभी एक टर्मिनल स्थिति तक ले जाती हैं और सामान्य वितरण से मतलब -0.1 और विचरण 1 के साथ तैयार की जाती हैं।
अब, स्पष्ट रूप से राज्य ए से इष्टतम कार्रवाई सही है। हालाँकि, जब हम बायें जाते हैं और स्टेट B में एक क्रिया करते हैं, तो एक इनाम मिलने की संभावना लगभग (0.5) 0.5 से अधिक होती है। अब, याद रखें कि Q- मान किस दिशा में स्थानांतरित किया गया है$r(s, a) + \max_a Q(s', a)$; स्टोकेस्टिक पुरस्कार के कारण जब राज्य बी से बाहर संक्रमण हो रहा है और इस तथ्य की कि हम संभवतः एक सकारात्मक पुरस्कार देखेंगे$\max_a Q(s', a)$ सकारात्मक रहेगा।
इसका अर्थ है कि जब हम बाईं क्रिया को Q- मान (Q (A, बाएँ)) लेते हैं, तो धनात्मक मान की ओर स्थानांतरित कर दिया जाता है, जिसका अर्थ है कि जब हम अवस्था A में होते हैं, तो बाईं ओर बढ़ने का मान दाईं ओर बढ़ने से अधिक होगा (जो होगा) धीरे-धीरे 0 के सही मूल्य की ओर स्थानांतरित किया जा रहा है) और इसलिए जब निम्नलिखित $\epsilon$लालची नीति लालची कार्रवाई छोड़ दिया जाना होगा जब वास्तव में यह उप-इष्टतम है।
अब, निश्चित रूप से, हम जानते हैं कि सच्चे Q-मान अंततः रूपांतरित हो जाएंगे, लेकिन यदि हमारे पास 100 कार्य हैं, तो आप शायद यह देख सकते हैं कि Q-मान को वास्तविक मान में परिवर्तित होने में कितना समय लगेगा। एक लंबे समय के रूप में हम अभिसरण तक सभी overestimated मूल्यों का चयन करते रहना होगा।