उत्पादन में आरएल प्राप्त करने के लिए सबसे बड़ी बाधाएं क्या हैं?
मैं सुदृढीकरण सीखने की कला की स्थिति का अध्ययन कर रहा हूं, और मेरी बात यह है कि हम उत्पादन में सुपरवाइज्ड और अनसुप्रवाइज्ड लर्निंग एल्गोरिदम का उपयोग करते हुए वास्तविक दुनिया में बहुत सारे अनुप्रयोग देखते हैं, लेकिन मैं सुदृढीकरण सीखने के स्थानों के साथ एक ही चीज नहीं देखता।
उत्पादन में आरएल प्राप्त करने के लिए सबसे बड़ी बाधाएं क्या हैं?
जवाब
एक अपेक्षाकृत हालिया पेपर है जो इस मुद्दे से निपटता है: गैब्रियल दुलाक-अर्नोल्ड एट अल। द्वारा वास्तविक दुनिया सुदृढीकरण सीखने (2019) की चुनौतियां, जो उन सभी चुनौतियों को प्रस्तुत करती हैं जिन्हें वास्तविक वास्तविक समस्याओं के लिए आरएल का उत्पादन करने के लिए संबोधित करने की आवश्यकता है। चुनौतियों के समाधान के लिए दृष्टिकोण / समाधान और उनका मूल्यांकन करने के लिए मीट्रिक। मैं केवल उन्हें सूचीबद्ध करूंगा (कुछ सप्ताह पहले नोटों के आधार पर)। अधिक जानकारी के लिए आपको पेपर पढ़ना चाहिए। किसी भी मामले में, आरएल से परिचित लोगों के लिए, वे काफी स्पष्ट होंगे।
- बैच ऑफ लाइन और ऑफ-पॉलिसी प्रशिक्षण
- एक वर्तमान समाधान महत्व नमूना है
- सीमित नमूनों से वास्तविक प्रणाली पर सीखना (नमूना अक्षमता)
- समाधान: एमएएमएल, एजेंट प्रदर्शन का उपयोग एजेंट को बूटस्ट्रैप करने के लिए, मॉडल-आधारित दृष्टिकोण
- उच्च आयामी निरंतर स्थिति और एक्शन स्पेस
- समाधान: AE-DQN, DRRN
- सुरक्षा बाधाओं को संतुष्ट करना
- समाधान: विवश एमडीपी, सुरक्षित अन्वेषण रणनीति आदि।
- आंशिक अवलोकन और गैर-स्थिरता
- आंशिक अवलोकन के समाधान: अवलोकन, आवर्तक तंत्रिका नेटवर्क, आदि में इतिहास को शामिल करें।
- गैर-स्थिरता का समाधान: डोमेन रैंडमाइज़ेशन या सिस्टम पहचान
- अनिर्दिष्ट और बहुउद्देश्यीय इनाम कार्य
- समाधान: सीवीआरआर, डिस्ट्रीब्यूशनल डीक्यूएन
- व्याख्या करने योग्य
- वास्तविक समय अनुमान
- सिस्टम देरी (यह भी देखें इस और इस जवाब)
गेब्रियल दुलक-अर्नोल्ड एट अल द्वारा वास्तविक दुनिया-सुदृढीकरण सीखने (2020) की चुनौतियों की एक अनुभवजन्य जांच और अधिक हालिया और संबंधित पेपर भी है , और यहां आपके पास प्रयोगों के साथ संबंधित कोड है।
हालांकि, ध्यान दें कि आरएल (विशेष रूप से, डाकुओं) का उपयोग कम से कम एक वास्तविक दुनिया की समस्या को हल करने के लिए किया जा रहा है [ 1 , 2 ]। इस उत्तर को भी देखें ।
तकनीकी बाधाएँ: कम से कम ये सामान्य ज्ञान बड़े अवरोधक होने चाहिए:
- ट्रायल-एंड-एरर तकनीक तैयार किए गए पर्यवेक्षित डेटा की तुलना में मॉडल को सीखना (बहुत अधिक) कठिन बना देती है
- समय-चरणों की संख्या (जो आमतौर पर प्रक्षेपवक्र में एजेंट के कार्यों की संख्या के बराबर होती है) बड़ी होती है, इस प्रकार ब्रूट-बल अन्वेषण काम नहीं करेगा क्योंकि त्रुटियों को खोजने के लिए परीक्षणों की संख्या घातीय है, हालांकि नकारात्मक पुरस्कार कम कटौती में मदद कर सकते हैं जानवर बल वृक्ष।
- वास्तविक जीवन RL असीमित संख्या में एपिसोड लेता है (प्रत्येक एपिसोड के लिए, क्रियाओं का एक क्रम सीखा जाना चाहिए), और वृद्धिशील प्रशिक्षण कठिन और कठिन समय में अधिक खोजे गए डेटा के साथ होता है, जब तक कि कुछ अतीत और नहीं-संबंधित डेटा हटा दिए जाते हैं , मनुष्यों की तरह, हम अधिक जानने के लिए अतीत को भूल जाते हैं, वर्तमान को याद करते हैं।
तकनीकी बाधाएं उन्हें व्यवसाय में लागू करने में पहले बाधाएं हैं। लोग मैन्युअल रूप से त्वरित रूप से कुछ पर्यवेक्षित डेटा का उत्पादन कर सकते हैं, और इस प्रकार पर्यवेक्षित शिक्षण को आमतौर पर पहले चुना जाता है, कोई भी आरएल की कोशिश नहीं करना चाहता है।
मानव संसाधन खोजने के लिए कठिन: पर्यवेक्षित शिक्षण में अनुभव वाले एआई इंजीनियर अधिक लोकप्रिय हैं और कुछ को खोजना आसान है; आरएल के साथ कम काम, इस प्रकार व्यावसायिक परियोजनाओं को आरएल का उपयोग करते हुए आसानी से नहीं किया जाता है।
हालांकि, मेरे दृष्टिकोण से, आरएल भविष्य में बहुत आशाजनक है क्योंकि एआई संस्थाएं अब अपने दम पर अधिक से अधिक हैं।