एक तंत्रिका नेटवर्क का प्रशिक्षण
अब हम सीखेंगे कि तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए। हम पायथन डीप लर्निंग में बैक प्रोग्रेस एल्गोरिथ्म और बैकवर्ड पास भी सीखेंगे।
हमें वांछित आउटपुट प्राप्त करने के लिए एक तंत्रिका नेटवर्क के वजन के इष्टतम मूल्यों को खोजना होगा। एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए, हम पुनरावृत्त ढाल मूल विधि का उपयोग करते हैं। हम शुरू में वजन के यादृच्छिक आरंभ के साथ शुरू करते हैं। यादृच्छिक आरंभीकरण के बाद, हम आगे प्रसार प्रक्रिया के साथ डेटा के कुछ सबसेट पर भविष्यवाणियां करते हैं, संबंधित लागत फ़ंक्शन C की गणना करते हैं, और प्रत्येक वजन w को dC / dw के अनुपात के अनुसार अपडेट करते हैं, यानी लागत कार्यों के व्युत्पन्न को wrt वजन। आनुपातिकता स्थिरांक को अधिगम दर के रूप में जाना जाता है।
ग्रेडिएंट्स को बैक-प्रचार एल्गोरिथ्म का उपयोग करके कुशलता से गणना की जा सकती है। बैकवर्ड प्रसार या बैकवर्ड प्रोप का मुख्य अवलोकन यह है कि भेदभाव के चेन नियम के कारण, न्यूरल नेटवर्क में प्रत्येक न्यूरॉन में ढाल को न्यूरॉन्स पर ग्रेडिएंट का उपयोग करके गणना की जा सकती है, इसमें आउटगोइंग किनारों हैं। इसलिए, हम ग्रेडिएंट्स की गणना पीछे की ओर करते हैं, अर्थात, पहले आउटपुट लेयर के ग्रेडिएंट्स की गणना करते हैं, फिर टॉप-मोस्ट हिडन लेयर, उसके बाद पूर्ववर्ती हिडन लेयर, और इसी तरह, इनपुट लेयर पर समाप्त होती है।
बैक-प्रोपगेशन एल्गोरिथ्म को ज्यादातर कम्प्यूटेशनल ग्राफ के विचार का उपयोग करके लागू किया जाता है, जहां प्रत्येक न्यूरॉन को कम्प्यूटेशनल ग्राफ में कई नोड्स तक विस्तारित किया जाता है और इसके अलावा गुणा, गुणा जैसे सरल गणितीय ऑपरेशन करता है। कम्प्यूटेशनल ग्राफ में किनारों पर कोई भार नहीं है; सभी वज़न नोड्स को सौंपे जाते हैं, इसलिए वज़न अपने स्वयं के नोड बन जाते हैं। पिछड़े प्रसार एल्गोरिथ्म को तब कम्प्यूटेशनल ग्राफ पर चलाया जाता है। एक बार गणना पूरी हो जाने के बाद, अपडेट के लिए केवल वज़न नोड्स के ग्रेडिएंट की आवश्यकता होती है। बाकी ग्रेडिएंट्स को त्याग दिया जा सकता है।
ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन तकनीक
आमतौर पर इस्तेमाल किया जाने वाला अनुकूलन फ़ंक्शन जो उनके द्वारा की गई त्रुटि के अनुसार वजन को समायोजित करता है, उसे "ढाल वंश" कहा जाता है।
ढाल एक xy ग्राफ पर ढलान, और ढलान के लिए एक और नाम है, यह दर्शाता है कि दो चर एक दूसरे से कैसे संबंधित हैं: रन पर वृद्धि, समय में परिवर्तन से दूरी में बदलाव, आदि। इस मामले में, ढलान है नेटवर्क की त्रुटि और एक एकल भार के बीच का अनुपात; यानी, वजन में बदलाव के कारण त्रुटि कैसे बदलती है।
इसे अधिक सटीक रूप से रखने के लिए, हम यह खोजना चाहते हैं कि कौन सा वजन कम से कम त्रुटि पैदा करता है। हम उस भार को खोजना चाहते हैं जो इनपुट डेटा में निहित संकेतों का सही प्रतिनिधित्व करता है, और उन्हें एक सही वर्गीकरण में अनुवाद करता है।
जैसा कि एक तंत्रिका नेटवर्क सीखता है, यह धीरे-धीरे कई वज़न को समायोजित करता है ताकि वे सिग्नल को सही ढंग से मैप कर सकें। नेटवर्क एरर और प्रत्येक वेट के बीच का अनुपात एक व्युत्पन्न, dE / dw है, जो इस बात की गणना करता है कि वजन में मामूली परिवर्तन त्रुटि में थोड़ा बदलाव का कारण बनता है।
प्रत्येक वजन एक गहरे नेटवर्क में सिर्फ एक कारक है जिसमें कई परिवर्तन शामिल होते हैं; वजन का संकेत कई परतों पर सक्रियण और रकम से होकर गुजरता है, इसलिए हम पथरी की श्रृंखला नियम का उपयोग नेटवर्क सक्रियण और आउटपुट के माध्यम से वापस करने के लिए करते हैं। यह हमें प्रश्न में वजन और समग्र त्रुटि के संबंध में ले जाता है।
दो चर, त्रुटि और वजन को देखते हुए, एक तीसरे चर द्वारा मध्यस्थता की जाती है, activationजिसके माध्यम से वजन पारित किया जाता है। हम गणना कर सकते हैं कि कैसे वजन में बदलाव पहली गणना द्वारा त्रुटि में बदलाव को प्रभावित करता है, कैसे सक्रियण में परिवर्तन त्रुटि में परिवर्तन को प्रभावित करता है, और कैसे वजन में परिवर्तन सक्रियण में परिवर्तन को प्रभावित करता है।
गहन शिक्षा में मूल विचार इससे अधिक कुछ नहीं है: जब तक आप किसी त्रुटि को कम नहीं कर सकते, तब तक किसी मॉडल के भार को समायोजित करना त्रुटि के जवाब में समायोजित करना।
यदि मूल्य अधिक है, तो धीरे-धीरे गहरी नेट गाड़ियों का मूल्य छोटा और तेज होता है। प्रशिक्षण में कोई भी अशुद्धियाँ गलत आउटपुट की ओर ले जाती हैं। आउटपुट से इनपुट पर वापस जाल को प्रशिक्षित करने की प्रक्रिया को वापस प्रसार या बैक प्रोप कहा जाता है। हम जानते हैं कि आगे का प्रसार इनपुट से शुरू होता है और आगे काम करता है। बैक प्रोप दाएं से बाएं बाएं ग्रेडिएंट को उल्टा / उल्टा करता है।
जितनी बार हम एक ढाल की गणना करते हैं, हम उस बिंदु तक सभी पिछले ग्रेडिएंट का उपयोग करते हैं।
हमें आउटपुट लेयर में एक नोड पर शुरू करते हैं। किनारे उस नोड पर ढाल का उपयोग करता है। जैसा कि हम छिपी हुई परतों में वापस जाते हैं, यह अधिक जटिल हो जाता है। 0 और 1 के बीच की दो संख्याओं का गुणनफल आपको छोटी संख्या देता है। ग्रेडिएंट वैल्यू छोटी होती जा रही है और परिणामस्वरूप बैक प्रॉप को प्रशिक्षित होने में बहुत समय लगता है और सटीकता में कमी आती है।
डीप लर्निंग एल्गोरिदम में चुनौतियां
उथले तंत्रिका नेटवर्क और गहरे तंत्रिका नेटवर्क दोनों के लिए कुछ चुनौतियां हैं, जैसे ओवरफिटिंग और गणना समय। DNNs ओवरफिटिंग से प्रभावित होते हैं क्योंकि अमूर्त की अतिरिक्त परतों का उपयोग जो उन्हें प्रशिक्षण डेटा में दुर्लभ निर्भरता मॉडल करने की अनुमति देता है।
Regularizationओवरफिटिंग से निपटने के लिए प्रशिक्षण के दौरान ड्रॉप आउट, शुरुआती रोक, डेटा वृद्धि, स्थानांतरण सीखने जैसे तरीके लागू होते हैं। नियमितीकरण को छोड़ दें प्रशिक्षण के दौरान छिपी हुई परतों से बेतरतीब ढंग से इकाइयों को छोड़ दिया जाता है जो दुर्लभ निर्भरता से बचने में मदद करता है। DNNs कई प्रशिक्षण मापदंडों जैसे आकार, यानी, परतों की संख्या और प्रति परत इकाइयों की संख्या, सीखने की दर और प्रारंभिक भार को ध्यान में रखते हैं। समय और कम्प्यूटेशनल संसाधनों में उच्च लागत के कारण इष्टतम पैरामीटर खोजना हमेशा व्यावहारिक नहीं होता है। कई हैक्स जैसे कि बैचिंग से गणना में तेजी आ सकती है। GPUs की बड़ी प्रसंस्करण शक्ति ने प्रशिक्षण प्रक्रिया में काफी मदद की है, क्योंकि आवश्यक मैट्रिक्स और वेक्टर गणना GPUs पर अच्छी तरह से क्रियान्वित की जाती हैं।
ड्रॉप आउट
ड्रॉपआउट तंत्रिका नेटवर्क के लिए एक लोकप्रिय नियमितीकरण तकनीक है। डीप न्यूरल नेटवर्क विशेष रूप से ओवरफिटिंग का खतरा होता है।
आइए अब देखते हैं कि ड्रॉपआउट क्या है और यह कैसे काम करता है।
डीप लर्निंग के अग्रदूतों में से एक, जेफ्री हिंटन के शब्दों में, 'यदि आपके पास एक गहरा तंत्रिका जाल है और यह ओवरफिटिंग नहीं है, तो आपको संभवतः एक बड़ा उपयोग करना चाहिए और ड्रॉपआउट का उपयोग करना चाहिए।'
ड्रॉपआउट एक ऐसी तकनीक है जहां ग्रेडिएंट डिसेंट के प्रत्येक पुनरावृत्ति के दौरान, हम बेतरतीब ढंग से चयनित नोड्स का एक सेट छोड़ते हैं। इसका मतलब है कि हम कुछ नोड्स को बेतरतीब ढंग से अनदेखा करते हैं जैसे कि वे मौजूद नहीं हैं।
प्रत्येक न्यूरॉन को q की प्रायिकता के साथ रखा जाता है और प्रायिकता 1-q के साथ यादृच्छिक रूप से गिराया जाता है। तंत्रिका नेटवर्क में प्रत्येक परत के लिए मान q भिन्न हो सकता है। छिपी हुई परतों के लिए 0.5 का मान, और इनपुट परत के लिए 0 कार्यों की एक विस्तृत श्रृंखला पर अच्छी तरह से काम करता है।
मूल्यांकन और भविष्यवाणी के दौरान, कोई ड्रॉपआउट का उपयोग नहीं किया जाता है। प्रत्येक न्यूरॉन के आउटपुट को q से गुणा किया जाता है ताकि अगली परत के इनपुट में समान अपेक्षित मूल्य हो।
ड्रॉपआउट के पीछे का विचार इस प्रकार है - ड्रॉपआउट नियमितीकरण के बिना एक तंत्रिका नेटवर्क में, न्यूरॉन्स एक दूसरे के बीच सह-निर्भरता विकसित करते हैं जो ओवरफिटिंग की ओर जाता है।
कार्यान्वयन की चाल
ड्रॉपआउट को पुस्तकालयों में लागू किया जाता है जैसे कि TensorFlow और Pytorch को बेतरतीब ढंग से चुने गए न्यूरॉन्स के आउटपुट को 0. के रूप में रखकर। हालांकि, यह न्यूरॉन मौजूद है, इसका आउटपुट 0 के रूप में ओवरराइट किया गया है।
जल्दी रोकना
हम क्रमिक वंश नामक एक पुनरावृत्त एल्गोरिथ्म का उपयोग करके तंत्रिका नेटवर्क को प्रशिक्षित करते हैं।
प्रारंभिक रोक के पीछे विचार सहज है; जब त्रुटि बढ़ने लगती है तो हम प्रशिक्षण रोक देते हैं। यहां, त्रुटि से हमारा मतलब है सत्यापन डेटा पर मापी गई त्रुटि, जो हाइपर-मापदंडों को ट्यूनिंग के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा का हिस्सा है। इस मामले में, हाइपर-पैरामीटर स्टॉप मानदंड है।
डेटा ऑगमेंटेशन
वह प्रक्रिया जहां हम अपने पास मौजूद डेटा का उपयोग करके या उस पर कुछ परिवर्तनों को लागू करके डेटा की मात्रा बढ़ाते हैं या इसे बढ़ाते हैं। उपयोग किए गए सटीक रूपांतरण उस कार्य पर निर्भर करते हैं जिसे हम प्राप्त करना चाहते हैं। इसके अलावा, परिवर्तन जो तंत्रिका जाल को इसकी वास्तुकला पर निर्भर करने में मदद करते हैं।
उदाहरण के लिए, ऑब्जेक्ट वर्गीकरण जैसे कई कंप्यूटर विज़न कार्यों में, एक प्रभावी डेटा वृद्धि तकनीक नए डेटा बिंदुओं को जोड़ रही है जो मूल डेटा के क्रॉप या अनुवादित संस्करण हैं।
जब एक कंप्यूटर इनपुट के रूप में एक छवि को स्वीकार करता है, तो यह पिक्सेल मूल्यों की एक सरणी में ले जाता है। बता दें कि पूरी तस्वीर को 15 पिक्सल्स द्वारा छोड़ा गया है। हम विभिन्न दिशाओं में कई अलग-अलग बदलावों को लागू करते हैं, जिसके परिणामस्वरूप मूल डेटासेट के आकार में कई बार संवर्धित डेटासेट होता है।
लर्निंग ट्रांसफर
एक पूर्व-प्रशिक्षित मॉडल और "फाइन-ट्यूनिंग" लेने की प्रक्रिया को हमारे स्वयं के डेटासेट के साथ मॉडल को ट्रांसफर लर्निंग कहा जाता है। ऐसा करने के कई तरीके हैं। कुछ तरीके नीचे वर्णित हैं -
हम एक बड़े डेटासेट पर पूर्व-प्रशिक्षित मॉडल को प्रशिक्षित करते हैं। फिर, हम नेटवर्क की अंतिम परत को हटाते हैं और इसे एक नई परत के साथ यादृच्छिक भार के साथ बदलते हैं।
हम फिर अन्य सभी परतों के भार को फ्रीज करते हैं और नेटवर्क को सामान्य रूप से प्रशिक्षित करते हैं। यहां परतें जमने से ढाल वंशानुक्रम या अनुकूलन के दौरान वज़न नहीं बदल रहा है।
इसके पीछे अवधारणा यह है कि पूर्व-प्रशिक्षित मॉडल एक फीचर एक्सट्रक्टर के रूप में कार्य करेगा, और वर्तमान कार्य पर केवल अंतिम परत को प्रशिक्षित किया जाएगा।