उत्पादन में आरएल प्राप्त करने के लिए सबसे बड़ी बाधाएं क्या हैं?

Jan 28 2021

मैं सुदृढीकरण सीखने की कला की स्थिति का अध्ययन कर रहा हूं, और मेरी बात यह है कि हम उत्पादन में सुपरवाइज्ड और अनसुप्रवाइज्ड लर्निंग एल्गोरिदम का उपयोग करते हुए वास्तविक दुनिया में बहुत सारे अनुप्रयोग देखते हैं, लेकिन मैं सुदृढीकरण सीखने के स्थानों के साथ एक ही चीज नहीं देखता।

उत्पादन में आरएल प्राप्त करने के लिए सबसे बड़ी बाधाएं क्या हैं?

जवाब

7 nbro Jan 28 2021 at 18:35

एक अपेक्षाकृत हालिया पेपर है जो इस मुद्दे से निपटता है: गैब्रियल दुलाक-अर्नोल्ड एट अल। द्वारा वास्तविक दुनिया सुदृढीकरण सीखने (2019) की चुनौतियां, जो उन सभी चुनौतियों को प्रस्तुत करती हैं जिन्हें वास्तविक वास्तविक समस्याओं के लिए आरएल का उत्पादन करने के लिए संबोधित करने की आवश्यकता है। चुनौतियों के समाधान के लिए दृष्टिकोण / समाधान और उनका मूल्यांकन करने के लिए मीट्रिक। मैं केवल उन्हें सूचीबद्ध करूंगा (कुछ सप्ताह पहले नोटों के आधार पर)। अधिक जानकारी के लिए आपको पेपर पढ़ना चाहिए। किसी भी मामले में, आरएल से परिचित लोगों के लिए, वे काफी स्पष्ट होंगे।

  1. बैच ऑफ लाइन और ऑफ-पॉलिसी प्रशिक्षण
    • एक वर्तमान समाधान महत्व नमूना है
  2. सीमित नमूनों से वास्तविक प्रणाली पर सीखना (नमूना अक्षमता)
    • समाधान: एमएएमएल, एजेंट प्रदर्शन का उपयोग एजेंट को बूटस्ट्रैप करने के लिए, मॉडल-आधारित दृष्टिकोण
  3. उच्च आयामी निरंतर स्थिति और एक्शन स्पेस
    • समाधान: AE-DQN, DRRN
  4. सुरक्षा बाधाओं को संतुष्ट करना
    • समाधान: विवश एमडीपी, सुरक्षित अन्वेषण रणनीति आदि।
  5. आंशिक अवलोकन और गैर-स्थिरता
    • आंशिक अवलोकन के समाधान: अवलोकन, आवर्तक तंत्रिका नेटवर्क, आदि में इतिहास को शामिल करें।
    • गैर-स्थिरता का समाधान: डोमेन रैंडमाइज़ेशन या सिस्टम पहचान
  6. अनिर्दिष्ट और बहुउद्देश्यीय इनाम कार्य
    • समाधान: सीवीआरआर, डिस्ट्रीब्यूशनल डीक्यूएन
  7. व्याख्या करने योग्य
  8. वास्तविक समय अनुमान
  9. सिस्टम देरी (यह भी देखें इस और इस जवाब)

गेब्रियल दुलक-अर्नोल्ड एट अल द्वारा वास्तविक दुनिया-सुदृढीकरण सीखने (2020) की चुनौतियों की एक अनुभवजन्य जांच और अधिक हालिया और संबंधित पेपर भी है , और यहां आपके पास प्रयोगों के साथ संबंधित कोड है।

हालांकि, ध्यान दें कि आरएल (विशेष रूप से, डाकुओं) का उपयोग कम से कम एक वास्तविक दुनिया की समस्या को हल करने के लिए किया जा रहा है [ 1 , 2 ]। इस उत्तर को भी देखें ।

4 datdinhquoc Jan 28 2021 at 16:56

तकनीकी बाधाएँ: कम से कम ये सामान्य ज्ञान बड़े अवरोधक होने चाहिए:

  • ट्रायल-एंड-एरर तकनीक तैयार किए गए पर्यवेक्षित डेटा की तुलना में मॉडल को सीखना (बहुत अधिक) कठिन बना देती है
  • समय-चरणों की संख्या (जो आमतौर पर प्रक्षेपवक्र में एजेंट के कार्यों की संख्या के बराबर होती है) बड़ी होती है, इस प्रकार ब्रूट-बल अन्वेषण काम नहीं करेगा क्योंकि त्रुटियों को खोजने के लिए परीक्षणों की संख्या घातीय है, हालांकि नकारात्मक पुरस्कार कम कटौती में मदद कर सकते हैं जानवर बल वृक्ष।
  • वास्तविक जीवन RL असीमित संख्या में एपिसोड लेता है (प्रत्येक एपिसोड के लिए, क्रियाओं का एक क्रम सीखा जाना चाहिए), और वृद्धिशील प्रशिक्षण कठिन और कठिन समय में अधिक खोजे गए डेटा के साथ होता है, जब तक कि कुछ अतीत और नहीं-संबंधित डेटा हटा दिए जाते हैं , मनुष्यों की तरह, हम अधिक जानने के लिए अतीत को भूल जाते हैं, वर्तमान को याद करते हैं।

तकनीकी बाधाएं उन्हें व्यवसाय में लागू करने में पहले बाधाएं हैं। लोग मैन्युअल रूप से त्वरित रूप से कुछ पर्यवेक्षित डेटा का उत्पादन कर सकते हैं, और इस प्रकार पर्यवेक्षित शिक्षण को आमतौर पर पहले चुना जाता है, कोई भी आरएल की कोशिश नहीं करना चाहता है।

मानव संसाधन खोजने के लिए कठिन: पर्यवेक्षित शिक्षण में अनुभव वाले एआई इंजीनियर अधिक लोकप्रिय हैं और कुछ को खोजना आसान है; आरएल के साथ कम काम, इस प्रकार व्यावसायिक परियोजनाओं को आरएल का उपयोग करते हुए आसानी से नहीं किया जाता है।

हालांकि, मेरे दृष्टिकोण से, आरएल भविष्य में बहुत आशाजनक है क्योंकि एआई संस्थाएं अब अपने दम पर अधिक से अधिक हैं।