नियमित क्यू-लर्निंग (और DQN) क्यू मूल्यों को क्यों कम करता है?

Jan 10 2021

डबल डीक्यूएन (और डबल क्यू-लर्निंग) की शुरूआत के लिए प्रेरणा यह है कि नियमित क्यू-लर्निंग (या डीक्यूएन) क्यू मूल्य को कम कर सकता है, लेकिन क्या यह संक्षिप्त विवरण है कि इसे क्यों कम करके आंका गया है?

जवाब

3 DavidIreland Jan 11 2021 at 00:44

Overestimation आपके Q- मूल्य अनुमानों के यादृच्छिक आरंभीकरण से आता है। स्पष्ट रूप से ये सही नहीं होंगे (यदि वे थे तो हमें सही क्यू-मूल्यों को सीखने की आवश्यकता नहीं होगी!)। कई मूल्य आधारित सुदृढीकरण सीखने के तरीकों जैसे SARSA या Q- एल्गोरिदम सीखने में शामिल हैं a$\max$लक्ष्य नीति के निर्माण में ऑपरेटर। सबसे स्पष्ट मामला है, जैसा कि आपने उल्लेख किया है, क्यू-लर्निंग। सीखने का अद्यतन है$$Q(s, a) = Q(s, a) + \alpha \left[r(s, a) + \gamma \max_a Q(s', a) - Q(s, a) \right] \;.$$जिस स्टेट-एक्शन टपल पर हम विचार कर रहे हैं, उसके लिए Q-function अगले राज्य में अधिकतम Q-function की ओर स्थानांतरित कर दिया गया है, जहाँ$\max$ कार्यों के संबंध में लिया जाता है।

अब, जैसा कि उल्लेख किया गया है कि क्यू-मूल्यों के हमारे प्रारंभिक अनुमानों को यादृच्छिक रूप से आरंभ किया गया है। यह स्वाभाविक रूप से गलत मूल्यों की ओर जाता है। इसका परिणाम यह है कि जब हम गणना करते हैं$\max_aQ(s', a)$हम ऐसे मूल्यों का चयन कर सकते हैं जो अत्यधिक कम करके आंका गया हो

जैसा कि क्यू-लर्निंग (सारणीबद्ध मामले में) को कुछ हल्के अनुमानों के तहत अभिसरण करने की गारंटी दी जाती है, इसलिए ओवरस्टीमेशन पूर्वाग्रह का मुख्य परिणाम यह है कि अभिसरण धीमा हो जाता है। इस कोर्स को डबल क्यू-लर्निंग से दूर किया जा सकता है।

उपरोक्त उत्तर सारणी क्यू-लर्निंग केस के लिए है। डीप क्यू-लर्निंग के लिए विचार समान है, सिवाय ध्यान दें कि डीप क्यू-लर्निंग की कोई अभिसरण गारंटी नहीं है (जब फ़ंक्शन एनकेटर के रूप में एनएन का उपयोग करते हुए) और इसलिए ओवरस्टीमेशन पूर्वाग्रह एक समस्या से अधिक है क्योंकि यह मापदंडों का मतलब हो सकता है नेटवर्क के उप-इष्टतम मूल्यों में फंस जाते हैं।

जैसा कि किसी ने टिप्पणियों में हमेशा बहुत कम संख्या होने के लिए मूल्यों को शुरू करने के बारे में पूछा, यह वास्तव में काम नहीं करेगा।

सटन और बार्टो से लिए गए निम्न एमडीपी पर विचार करें: हम राज्य ए में शुरू करते हैं, जिसमें से हम या तो इनाम 0 के साथ दाएं जा सकते हैं या टर्मिनल राज्य के लिए अग्रणी हो सकते हैं या इनाम 0 से राज्य बी के साथ बाएं जा सकते हैं। राज्य बी से हम ले सकते हैं, कहते हैं, 100 अलग-अलग क्रियाएं, जिनमें से सभी एक टर्मिनल स्थिति तक ले जाती हैं और सामान्य वितरण से मतलब -0.1 और विचरण 1 के साथ तैयार की जाती हैं।

अब, स्पष्ट रूप से राज्य ए से इष्टतम कार्रवाई सही है। हालाँकि, जब हम बायें जाते हैं और स्टेट B में एक क्रिया करते हैं, तो एक इनाम मिलने की संभावना लगभग (0.5) 0.5 से अधिक होती है। अब, याद रखें कि Q- मान किस दिशा में स्थानांतरित किया गया है$r(s, a) + \max_a Q(s', a)$; स्टोकेस्टिक पुरस्कार के कारण जब राज्य बी से बाहर संक्रमण हो रहा है और इस तथ्य की कि हम संभवतः एक सकारात्मक पुरस्कार देखेंगे$\max_a Q(s', a)$ सकारात्मक रहेगा।

इसका अर्थ है कि जब हम बाईं क्रिया को Q- मान (Q (A, बाएँ)) लेते हैं, तो धनात्मक मान की ओर स्थानांतरित कर दिया जाता है, जिसका अर्थ है कि जब हम अवस्था A में होते हैं, तो बाईं ओर बढ़ने का मान दाईं ओर बढ़ने से अधिक होगा (जो होगा) धीरे-धीरे 0 के सही मूल्य की ओर स्थानांतरित किया जा रहा है) और इसलिए जब निम्नलिखित $\epsilon$लालची नीति लालची कार्रवाई छोड़ दिया जाना होगा जब वास्तव में यह उप-इष्टतम है।

अब, निश्चित रूप से, हम जानते हैं कि सच्चे Q-मान अंततः रूपांतरित हो जाएंगे, लेकिन यदि हमारे पास 100 कार्य हैं, तो आप शायद यह देख सकते हैं कि Q-मान को वास्तविक मान में परिवर्तित होने में कितना समय लगेगा। एक लंबे समय के रूप में हम अभिसरण तक सभी overestimated मूल्यों का चयन करते रहना होगा।