गहराई से स्व-पर्यवेक्षित शिक्षण (भाग 1)

Feb 09 2022
LeCun के केक शैली में अग्रिम! यह स्व-पर्यवेक्षित शिक्षा क्या है जो हम अब हर जगह सुनते हैं? स्व-पर्यवेक्षित शिक्षण अभी तक एक और मशीन सीखने का तरीका है, लेकिन एक विशेष है;) जहां नेटवर्क डेटा के छिपे हुए गुणों को सीखता है, इसके देखे गए गुणों का उपयोग करके, नेटवर्क को अन्य डाउनस्ट्रीम मान्यता कार्यों के लिए उपयोगी बनाता है। कुछ लोग एसएसएल (स्व-पर्यवेक्षित शिक्षण) पर विचार करते हैं, जो एक उप-प्रकार की अनुपयोगी शिक्षा है।

LeCun के केक शैली में अग्रिम!

(अनस्प्लैश पर डेविड होलीफिल्ड द्वारा फोटो)

यह स्व-पर्यवेक्षित शिक्षा क्या है जो हम अब हर जगह सुनते हैं?

स्व-पर्यवेक्षित शिक्षण अभी तक एक और मशीन सीखने का तरीका है, लेकिन एक विशेष है;) जहां नेटवर्क डेटा के छिपे हुए गुणों को सीखता है, इसके देखे गए गुणों का उपयोग करके, नेटवर्क को अन्य डाउनस्ट्रीम मान्यता कार्यों के लिए उपयोगी बनाता है।

कुछ लोग एसएसएल (स्व-पर्यवेक्षित शिक्षण) पर विचार करते हैं, जो एक उप-प्रकार की अनुपयोगी शिक्षा है। मैं व्यक्तिगत रूप से मानता हूं कि यह भ्रामक है, क्योंकि इसकी परिभाषा के अनुसार, अनुपयोगी शिक्षा का आदर्श रूप से कोई पर्यवेक्षण नहीं होना चाहिए। हालांकि, एसएसएल किसी भी पर्यवेक्षित शिक्षण विधियों की तुलना में डेटा से अधिक पर्यवेक्षण का उपयोग करता है। हालांकि, पर्यवेक्षित शिक्षण के विपरीत, इसमें डेटा को मानवीय रूप से एनोटेट करने की आवश्यकता नहीं होती है, इस प्रकार कई एआई अग्रिमों के लिए प्रमुख बाधाओं पर काबू पाना, क्योंकि प्रत्येक डेटा को मैन्युअल रूप से लेबल करना न केवल असंभव है, बल्कि कई मामलों में हमारे पास गहन प्रशिक्षण के लिए पर्याप्त डेटा नहीं है। सीखने का नेटवर्क। इस प्रकार मैं इसे अपनी श्रेणी देता हूं।

अब जब हमारे पास स्व-पर्यवेक्षित नेटवर्क क्या हैं, इसका एक मोटा विचार है, तो आइए समय के साथ इसके विकास, गिरावट और सुधारों में गहराई से उतरें। लेकिन इससे पहले कि हम ऐसा करें, मैं हमें उस युग की महान एमएल सलाह में से एक की याद दिलाने के लिए कुछ समय देना चाहूंगा: हमेशा यादृच्छिक आरंभीकरण पर पूर्व-प्रशिक्षित भार से अपना प्रशिक्षण शुरू करने का प्रयास करें! वास्तव में भले ही लक्ष्य डेटा पूर्व-प्रशिक्षित डेटा से संबंधित न हो। मैथरा एट अल।, अपने हालिया अध्ययन ट्रांसफ्यूजन [1] में, ने दिखाया है कि इमेजनेट प्रीट्रेन्ड वेट से मेडिकल इमेज के लिए नेटवर्क को प्रशिक्षित करने के लिए ज्ञान को स्थानांतरित करने में क्या अंतर हो सकता है। कोई आश्चर्य नहीं, हमारा पसंदीदा एसएसएल भी ट्रांसफर लर्निंग सिद्धांत पर काम करता है :) इस बात को ध्यान में रखते हुए, आइए अब अपनी पोस्ट को आगे बढ़ाते हैं।

एसएसएल में, प्रीट्रेनिंग नेटवर्क के लिए उपयोग किए जाने वाले कार्यों को प्रीटेक्स्ट टास्क कहा जाता है , अर्थात, ऐसे कार्य जो नेटवर्क को बिना लेबल वाले डेटा की व्यापक, अधिक सामान्यीकृत विशेषताओं को सीखने में मदद करते हैं, जैसे। आरा-पहेलियाँ [6], संदर्भ-पूर्वानुमान [7] आदि। इनसे सीखे गए पैरामीटर तब नेटवर्क को डाउनस्ट्रीम कार्यों यानी रुचि के कार्यों जैसे फ़ाइन-ट्यूनिंग के लिए उपयोग किए जाते हैं। वर्गीकरण या पहचान आदि। एसएसएल का काफी समय से एनएलपी में व्यापक रूप से उपयोग किया गया है, लेकिन कंप्यूटर विजन समुदाय हाल ही में अपनी गति भी प्राप्त कर रहा है। सहजता और संक्षिप्तता के लिए, जब तक अन्यथा उल्लेख नहीं किया जाता है, मैं सीवी के आसपास चर्चा को जारी रखूंगा।
तो क्या यह है, हम नेटवर्क को बहाने काम पर प्रशिक्षित करते हैं और अपने आवश्यक कार्य को ठीक करते हैं? नहीं, बुनियादी एनकोडर का उपयोग करते हुए बहाने कार्य प्रशिक्षण के साथ एक चेतावनी देखी गई। सामान्य कार्य-हस्तांतरणीय सुविधाओं को नहीं सीख रहे थे, नेटवर्क उन बहाने कार्यों के लिए बहुत विशिष्ट हो रहे थे जिन पर उन्हें प्रशिक्षित किया गया था।

इससे बचने के लिए, व्यापक डेटा संवर्द्धन को अपनाया गया था, जहां छवि और इसके परिवर्तनों को समानता के नुकसान के साथ एक स्याम देश के नेटवर्क में पारित किया जाता है, जिससे नेटवर्क डेटा के मजबूत प्रतिनिधित्व का उत्पादन करता है।

एक पारंपरिक एसएसएल नेटवर्क।

तो अब सब हल हो गया? -धैर्य, एक और नकारात्मक पहलू के बारे में जानें!
यदि हमारे डेटा में एक वर्ग का प्रभुत्व है, तो नेटवर्क सबसे आम प्रतिनिधित्व सीखकर हानि फ़ंक्शन को धोखा दे सकता है। इस समस्या को आमतौर पर मोड पतन के रूप में जाना जाता है।
ईशान मिश्रा, एनवाईयू में अपने बहुत ही शांत व्याख्यान में, विभिन्न नवीनतम तरीकों के बारे में बात करते हैं जो इन मुद्दों को दो तरीकों में से एक के माध्यम से दूर करने का प्रयास करते हैं:
- समानता अधिकतमकरण तकनीक, जहां नेटवर्क सियामी नेटवर्क से आउटपुट सुविधाओं के बीच समानता को अधिकतम करने पर काम करते हैं। . इनमें कंट्रास्टिव लर्निंग (सीपीसी, पीआईआरएल, मोको, सिमसीएलआर), क्लस्टरिंग (डीपक्लस्टर, एसएएवी, सेएलए) और डिस्टिलेशन (बीवाईओएल, सिमसियाम) शामिल हैं।
- बार्लो ट्विन्स जैसे कुछ हालिया पेपर मोड पतन के तुच्छ समाधान को दूर करने के लिए रिडंडेंसी रिडक्शन नामक एक अन्य दृष्टिकोण के साथ आए हैं ।
हम प्रत्येक विधि का पता लगाएंगे, कि वे भविष्य की पोस्टों में विपरीत सीखने के तरीके पर काबू पाने के तरीकों में कैसे भिन्न हैं। इस क्षेत्र में इतना काम किया गया है कि मैं इस पोस्ट में इस पद्धति के बारे में कुछ कागजात और उनकी समीक्षाओं को रखने से नहीं रोक सकता।

हम्म, तो मुझे कंट्रास्टिव लर्निंग के बारे में और बताएं!

कंट्रास्टिव सेल्फ-सुपरवाइज्ड लर्निंग (सीएसएल) एक एसएसएल दृष्टिकोण है जहां नेटवर्क एंकर और सकारात्मक नमूनों बनाम एंकर और नकारात्मक नमूनों के बीच समानता या असमानता माप का उपयोग करके समान डेटा को एक साथ और विविध डेटा को समूहबद्ध करना सीखता है।

दूसरे शब्दों में, सीएसएल हानि फ़ंक्शन का उपयोग करके तुच्छ समाधान से बचता है जहां समानता (i, iT)> समानता (i, j) , iT छवि i- वृद्धि है, i और j दो अलग-अलग सेट या पैच हैं। आइए देखते हैं उस समय के कुछ सफल पेपर। इन पेपरों ने अब तक तीन मुख्य सीएसएल तंत्रों में से एक का पालन किया है - एंड-टू-एंड आर्किटेक्चर, मेमोरी बैंक और मोमेंटम एनकोडर आर्किटेक्चर।

  • कंट्रास्टिव प्रेडिक्टिव कोडिन जी (सीपीसी) : सीपीसी ऑटोरेग्रेसिव मॉडल का उपयोग करके अपने पिछले डेटा के गुप्त आयामों को सारांशित करके अनुक्रमिक/समय श्रृंखला डेटा के भविष्य की भविष्यवाणी करना सीखता है। यह अनुकूलित ResNet एन्कोडर के साथ एंड-टू-एंड आर्किटेक्चर का अनुसरण करता है। यह क्रॉस एंट्रॉपी हानि की गणना करने के लिए दो नमूनों के बीच समानता (कोसाइन) से विपरीत हानि, यानी, शोर विपरीत अनुमानक (एनसीई) का उपयोग करता है।
    मुख्य विशेषताएं:
    - एनकोडर इनपुट अनुक्रम को अव्यक्त अभ्यावेदन में परिवर्तित करता है जिसके बाद ऑटोरेग्रेसिव मॉडल होता है जो तब संदर्भ अव्यक्त अभ्यावेदन उत्पन्न करता है। [5]
    - छवि के प्रति बैच सकारात्मक नमूने बढ़ते हुए छवि परिवर्तन के रूप में उप-पैच विभाजन का परिचय दिया गया।
    कमियां:
    - नकारात्मक नमूने एक बैच से लिए जाते हैं और इस प्रकार अच्छी तरह से सामान्य नहीं होते हैं जब तक कि बैच का आकार बड़ा नहीं किया जाता है जो भारी गणना का कारण बनता है।
    - कस्टम ResNet जटिलता को बढ़ाता है और सामान्यीकरण को कम करता है।
  • छवि क्रेडिट: सीपीसी पेपर के लेखक
  • प्रीटेक्स्ट इनवेरिएंट रिप्रेजेंटेशन लर्निंग (PIRL) : जैसा कि नाम से पता चलता है, यह विधि प्रीटेक्स्ट टास्क का उपयोग करके इमेज ट्रांसफॉर्मेड और नेटवर्क को उन ट्रांसफॉर्मेशन के लिए अपरिवर्तनीय होने के लिए मजबूर करके अधिक मजबूत फीचर रिप्रेजेंटेशन सीखने की कोशिश करती है। मेमोरी बैंक आर्किटेक्चर का अनुसरण करता है, जहां मेमोरी बैंक में नकारात्मक नमूने एकत्र किए जाते हैं। सीपीसी की तरह, पीआईआरएल भी एनसीई लॉस फंक्शन का उपयोग करता है।
    हाइलाइट्स:
    - एनकोडर के बाद प्रोजेक्शन हेड जोड़ता है, जिसका आउटपुट तब लॉस फंक्शन को फीड किया जाता है।
    - नकारात्मक नमूनों के लिए बैच पर निर्भरता को खत्म करता है, इस प्रकार इसे बैच से अलग करता है।
    कमियां:
    - नकारात्मक नमूनों के विशाल मेमोरी बैंक की आवश्यकता होती है।
    - मेमोरी बैंक में चाबियां पिछले युगों के अलग-अलग एन्कोडर से होती हैं (क्योंकि क्वेरी एन्कोडर बैकप्रोपेगेशन के माध्यम से अपडेट होता रहता है) और इस प्रकार संगत नहीं होते हैं।
    यह अद्भुत पोस्ट नेटवर्क के बारे में गहराई से बताती है।
  • छवि क्रेडिट: पीआईआरएल पेपर के लेखक
  • SimCLR - एक एंड-टू-एंड मॉडल आर्किटेक्चर, क्वेरी और की नेटवर्क दोनों को प्रशिक्षित करता है। एंड-टू-एंड दृष्टिकोण के अनुसार, नकारात्मक नमूनों को बैच के साथ जोड़ा जाता है।
    मुख्य विशेषताएं:
    - सरल वास्तुकला, केवल अधिक संवर्द्धन का उपयोग करके और एन्कोडर के बाद गैर रैखिक परत जोड़कर सुधार दिखाता है।
    - एनटी-एक्सेंट (सामान्यीकृत तापमान-स्केल्ड क्रॉस एन्ट्रॉपी लॉस) यानी तापमान के साथ एनसीई लॉस का उपयोग करता है।
    दोष:
    - चूंकि नकारात्मक नमूने वर्तमान बैच से हैं, नेटवर्क का प्रदर्शन सीधे और अत्यधिक निर्भर बैच आकार का है। - बेहतर प्रदर्शन के लिए बड़े बैचसाइज को कई जीपीयू में फैलाने की जरूरत है, इस प्रकार बड़ी गणना शक्ति की आवश्यकता होती है।
    - बड़े बैच आकार के कारण अनुकूलन समस्या, नेटवर्क जल्दी परिवर्तित नहीं हो रहा है।
  • मोमेंटम कंट्रास्ट (MoCo) - नेटवर्क बैच से अपने नकारात्मक नमूनों के साथ डेटा की तुलना करने के अलावा, धीमी गति से चलने वाले गति एन्कोडर के माध्यम से देखे गए डेटा का एक शब्दकोश या "इतिहास" रखता है।
  • छवि क्रेडिट: MoCo पेपर के लेखक

कमियां:
- स्थानीय स्तर पर कोई अभ्यावेदन नहीं सीखा। चूंकि छवियों को एकल नमूने के रूप में माना जाता है, नेटवर्क केवल वैश्विक स्तर का प्रतिनिधित्व सीखता है। DetCo स्थानीय-से-स्थानीय और स्थानीय-से-वैश्विक हानि फ़ंक्शन बनाकर इस पर काबू पाता है।

काफी लंबी पोस्ट का निष्कर्ष?

कंप्यूटर विजन समुदाय में स्वयं पर्यवेक्षित तकनीक निस्संदेह गति प्राप्त कर रही है। कंट्रास्टिव लर्निंग में हाल के विकास को कवर करने और पढ़ने को छोटा और सरल रखने के मेरे प्रयास में, शायद पेचीदगियों पर प्रकाश डाला गया हो। मेटा रिसर्च द्वारा ब्लॉग अधिक जानने के इच्छुक लोगों के लिए एक मजेदार पढ़ा गया है। विलियम फाल्कन एट अल द्वारा पेपर । उपरोक्त सीएसएल विधियों में से प्रत्येक का विस्तार से वर्णन करता है और नए दृष्टिकोण के साथ आता है जिसे येट अदर डीआईएम (YADIM) कहा जाता है, इसे अवश्य पढ़ें।

इस पोस्ट को पढ़ने के लिए धन्यवाद। जल्द ही अन्य तरीकों के साथ पालन करेंगे।
मैं राइडसेल में अपने सहयोगियों अरुण कुमार और गौरव सिंह को उनके समर्थन के लिए धन्यवाद देना चाहता हूं। पेपर रीडिंग सेशन में सहयोग करने के लिए ऑरो टीम को चिल्लाएं।

संबंधित लिंक:
[1] मैथरा रघु एट अल द्वारा आधान पत्र।
[2] विलियम फाल्कन एट अल द्वारा YADIM पेपर । [3] कैमिंग ही एट अल द्वारा MoCo पेपर । [4]

https://arxiv.org/pdf/2011.00362.pdf
[5] सीपीसी पेपर :https://arxiv.org/pdf/1807.03748.pdf
[6] आरा पहेलियाँ :https://arxiv.org/pdf/1603.09246.pdf
[7] प्रसंग-भविष्यवाणी :https://arxiv.org/pdf/1505.05192.pdf
[8] अमित चौधरी द्वारा PIRL का वर्णन करने वाली पोस्टhttps://amitness.com/2020/03/illustrated-pirl/
[9] पीआईआरएल पेपर :https://arxiv.org/pdf/1912.01991.pdf