पायथन डीप लर्निंग - क्विक गाइड
डीप स्ट्रक्चर्ड लर्निंग या हायरार्चिकल लर्निंग या शॉर्ट में डीप लर्निंग, मशीन लर्निंग के तरीकों का परिवार का हिस्सा है जो खुद आर्टिफिशियल इंटेलिजेंस के व्यापक क्षेत्र का सबसेट हैं।
डीप लर्निंग मशीन लर्निंग एल्गोरिदम का एक वर्ग है जो फीचर निष्कर्षण और परिवर्तन के लिए नॉनलाइनियर प्रोसेसिंग इकाइयों की कई परतों का उपयोग करता है। प्रत्येक क्रमिक परत इनपुट के रूप में पिछली परत से आउटपुट का उपयोग करती है।
गहरी तंत्रिका नेटवर्क, गहरी विश्वास नेटवर्क और आवर्तक तंत्रिका नेटवर्क को कंप्यूटर दृष्टि, भाषण मान्यता, प्राकृतिक भाषा प्रसंस्करण, ऑडियो मान्यता, सामाजिक नेटवर्क फ़िल्टरिंग, मशीन अनुवाद और जैव सूचना विज्ञान जैसे क्षेत्रों में लागू किया गया है, जहां उन्होंने कुछ मामलों में तुलनात्मक परिणाम उत्पन्न किए हैं। मानव विशेषज्ञों से बेहतर है।
डीप लर्निंग एल्गोरिदम और नेटवर्क -
सुविधाओं के कई स्तरों या डेटा के निरूपण के अप्रकाशित शिक्षण पर आधारित हैं। उच्च स्तर की विशेषताएं निचले स्तर की विशेषताओं से एक श्रेणीबद्ध प्रतिनिधित्व बनाने के लिए निकाली गई हैं।
प्रशिक्षण के लिए ढाल वंश के कुछ रूप का उपयोग करें।
इस अध्याय में, हम पायथन डीप लर्निंग के लिए स्थापित पर्यावरण के बारे में जानेंगे। हमें डीप लर्निंग एल्गोरिदम बनाने के लिए निम्नलिखित सॉफ्टवेयर इंस्टॉल करना होगा।
- पायथन 2.7+
- Numpy के साथ घबराहट
- Matplotlib
- Theano
- Keras
- TensorFlow
यह दृढ़ता से अनुशंसा करता है कि एनाकोंडा वितरण के माध्यम से पायथन, न्यूमपी, साइपी, और मैटलोट्लिब स्थापित किए गए हैं। यह उन सभी पैकेजों के साथ आता है।
हमें यह सुनिश्चित करने की आवश्यकता है कि विभिन्न प्रकार के सॉफ़्टवेयर ठीक से स्थापित हैं।
आइए हम अपने कमांड लाइन प्रोग्राम पर जाएं और निम्न कमांड टाइप करें-
$ python
Python 3.6.3 |Anaconda custom (32-bit)| (default, Oct 13 2017, 14:21:34)
[GCC 7.2.0] on linux
अगला, हम आवश्यक पुस्तकालयों को आयात कर सकते हैं और उनके संस्करण प्रिंट कर सकते हैं -
import numpy
print numpy.__version__
उत्पादन
1.14.2
थीनो, टेन्सरफ्लो और केरस की स्थापना
इससे पहले कि हम पैकेजों की स्थापना के साथ शुरू करें - थीनो, टेन्सरफ्लो और केरस, हमें यह पुष्टि करने की आवश्यकता है कि क्या pipस्थापित है। एनाकोंडा में पैकेज प्रबंधन प्रणाली को पाइप कहा जाता है।
पाइप की स्थापना की पुष्टि करने के लिए, कमांड लाइन में निम्नलिखित लिखें -
$ pip
एक बार जब पाइप की स्थापना की पुष्टि हो जाती है, तो हम निम्नलिखित कमांड निष्पादित करके TensorFlow और Keras स्थापित कर सकते हैं -
$pip install theano $pip install tensorflow
$pip install keras
कोड की निम्नलिखित पंक्ति को निष्पादित करके थीनो की स्थापना की पुष्टि करें -
$python –c “import theano: print (theano.__version__)”
उत्पादन
1.0.1
कोड की निम्नलिखित पंक्ति को निष्पादित करके Tensorflow की स्थापना की पुष्टि करें -
$python –c “import tensorflow: print tensorflow.__version__”
उत्पादन
1.7.0
कोड की निम्नलिखित पंक्ति निष्पादित करके करैस की स्थापना की पुष्टि करें -
$python –c “import keras: print keras.__version__”
Using TensorFlow backend
उत्पादन
2.1.5
आर्टिफिशियल इंटेलिजेंस (एआई) किसी भी कोड, एल्गोरिदम या तकनीक है जो कंप्यूटर को मानव संज्ञानात्मक व्यवहार या खुफिया की नकल करने में सक्षम बनाता है। मशीन लर्निंग (ML) AI का एक उपसमूह है जो मशीनों को अनुभव के साथ सीखने और सुधारने के लिए सांख्यिकीय तरीकों का उपयोग करता है। डीप लर्निंग मशीन लर्निंग का सबसेट है, जो मल्टी लेयर न्यूरल नेटवर्कों की गणना को संभव बनाता है। मशीन लर्निंग को उथले अधिगम के रूप में देखा जाता है जबकि डीप लर्निंग को अमूर्त के साथ पदानुक्रमित अधिगम के रूप में देखा जाता है।
मशीन लर्निंग अवधारणाओं की एक विस्तृत श्रृंखला के साथ संबंधित है। अवधारणाओं को नीचे सूचीबद्ध किया गया है -
- supervised
- unsupervised
- सुदृढीकरण सीखना
- रेखीय प्रतिगमन
- लागत कार्य
- overfitting
- under-fitting
- हाइपर-पैरामीटर, आदि।
पर्यवेक्षित शिक्षण में, हम लेबल किए गए डेटा से मूल्यों की भविष्यवाणी करना सीखते हैं। एक एमएल तकनीक जो यहां मदद करती है वह है वर्गीकरण, जहां लक्ष्य मान असतत मूल्य हैं; उदाहरण के लिए, बिल्लियों और कुत्तों। मशीन लर्निंग की एक और तकनीक जो मदद कर सकती है वह है रिग्रेशन। प्रतिगमन लक्ष्य मानों पर काम करता है। लक्ष्य मान निरंतर मूल्य हैं; उदाहरण के लिए, प्रतिगमन का उपयोग करके शेयर बाजार के आंकड़ों का विश्लेषण किया जा सकता है।
बिना पढ़े-लिखे सीखने में, हम उन इनपुट डेटा से निष्कर्ष निकालते हैं जो लेबल या संरचित नहीं हैं। यदि हमारे पास एक लाख मेडिकल रिकॉर्ड हैं और हमें इसका बोध करना है, तो अंतर्निहित संरचना, आउटलेयर या विसंगतियों का पता लगाएं, हम डेटा को व्यापक समूहों में विभाजित करने के लिए क्लस्टरिंग तकनीक का उपयोग करते हैं।
डेटा सेट को प्रशिक्षण सेट, परीक्षण सेट, सत्यापन सेट आदि में विभाजित किया जाता है।
2012 में एक सफलता ने डीप लर्निंग की अवधारणा को प्रमुखता से लाया। एक एल्गोरिथ्म ने 2 जीपीयू और बिग डेटा जैसी नवीनतम तकनीकों का उपयोग करके 1000 श्रेणियों में 1 मिलियन छवियों को सफलतापूर्वक वर्गीकृत किया।
डीप लर्निंग और ट्रेडिशनल मशीन लर्निंग से संबंधित
पारंपरिक मशीन लर्निंग मॉडल में आने वाली प्रमुख चुनौतियों में से एक एक प्रक्रिया है जिसे फीचर निष्कर्षण कहा जाता है। प्रोग्रामर को विशिष्ट होना चाहिए और कंप्यूटर को उन विशेषताओं के बारे में बताना चाहिए जिनके लिए देखा जाना चाहिए। ये सुविधाएँ निर्णय लेने में मदद करेंगी।
एल्गोरिथ्म में कच्चे डेटा को दर्ज करना शायद ही कभी काम करता है, इसलिए सुविधा निष्कर्षण पारंपरिक मशीन सीखने के वर्कफ़्लो का एक महत्वपूर्ण हिस्सा है।
यह प्रोग्रामर पर एक बड़ी जिम्मेदारी डालता है, और एल्गोरिथ्म की दक्षता प्रोग्रामर के आविष्कारक पर बहुत निर्भर करती है। वस्तु पहचान या लिखावट मान्यता जैसी जटिल समस्याओं के लिए, यह एक बहुत बड़ा मुद्दा है।
डीप लर्निंग, प्रतिनिधित्व की कई परतों को सीखने की क्षमता के साथ, कुछ तरीकों में से एक है जो हमें स्वचालित सुविधा निष्कर्षण में मदद करता है। निचली परतों को प्रोग्रामर से बहुत कम या कोई मार्गदर्शन प्राप्त करने की आवश्यकता होती है, स्वचालित सुविधा निष्कर्षण किया जा सकता है।
कृत्रिम तंत्रिका नेटवर्क, या संक्षेप में सिर्फ तंत्रिका नेटवर्क, एक नया विचार नहीं है। यह लगभग 80 वर्षों से है।
यह 2011 तक नहीं था, जब डीप न्यूरल नेटवर्क नई तकनीकों, विशाल डेटासेट उपलब्धता और शक्तिशाली कंप्यूटरों के उपयोग से लोकप्रिय हो गया था।
एक तंत्रिका नेटवर्क एक न्यूरॉन की नकल करता है, जिसमें डेंड्राइट्स, एक नाभिक, एक्सोन और टर्मिनल एक्सॉन होता है।
एक नेटवर्क के लिए, हमें दो न्यूरॉन्स की आवश्यकता होती है। ये न्यूरॉन्स एक के डेंड्राइट्स और दूसरे के टर्मिनल एक्सॉन के बीच सिनैप्स के माध्यम से जानकारी ट्रांसफर करते हैं।
एक कृत्रिम न्यूरॉन का एक संभावित मॉडल इस तरह दिखता है -
एक तंत्रिका नेटवर्क जैसा नीचे दिखाया गया है -
वृत्त न्यूरॉन्स या नोड होते हैं, डेटा पर उनके कार्यों के साथ और उन्हें जोड़ने वाली रेखाएं / किनारे वजन / जानकारी के साथ पारित किए जा रहे हैं।
प्रत्येक स्तंभ एक परत है। आपके डेटा की पहली परत इनपुट परत है। फिर, इनपुट परत और आउटपुट परत के बीच की सभी परतें छिपी हुई परतें हैं।
यदि आपके पास एक या कुछ छिपी हुई परतें हैं, तो आपके पास एक उथले तंत्रिका नेटवर्क है। यदि आपके पास कई छिपी हुई परतें हैं, तो आपके पास एक गहरा तंत्रिका नेटवर्क है।
इस मॉडल में, आपके पास इनपुट डेटा है, आप इसे भारित करते हैं, और इसे न्यूरॉन में फ़ंक्शन से गुजरते हैं जिसे थ्रेशोल्ड फ़ंक्शन या सक्रियण फ़ंक्शन कहा जाता है।
मूल रूप से, यह एक निश्चित मूल्य के साथ तुलना करने के बाद सभी मानों का योग है। यदि आप एक सिग्नल को फायर करते हैं, तो परिणाम (1) आउट होता है, या कुछ भी नहीं निकाल दिया जाता है, तब (0)। फिर उसे अगले न्यूरॉन के साथ भारित और पारित किया जाता है, और उसी प्रकार का कार्य चलाया जाता है।
सक्रियण फ़ंक्शन के रूप में हमारे पास सिग्मॉइड (एस-आकार) फ़ंक्शन हो सकता है।
भार के रूप में, वे शुरू करने के लिए सिर्फ यादृच्छिक हैं, और वे नोड / न्यूरॉन में प्रति इनपुट अद्वितीय हैं।
एक सामान्य "फीड फ़ॉरवर्ड" में, सबसे बुनियादी प्रकार का तंत्रिका नेटवर्क, आपके पास आपके द्वारा बनाए गए नेटवर्क के माध्यम से आपकी जानकारी सीधे पास होती है, और आप आउटपुट की तुलना उस चीज़ से करते हैं जिसकी आपको उम्मीद थी कि आउटपुट आपके नमूना डेटा का उपयोग कर रहा होगा।
यहां से, आपको अपने वांछित आउटपुट से मेल खाने के लिए अपना आउटपुट प्राप्त करने में मदद करने के लिए वज़न समायोजित करने की आवश्यकता है।
तंत्रिका नेटवर्क के माध्यम से सीधे डेटा भेजने के कार्य को कहा जाता है feed forward neural network.
हमारा डेटा इनपुट से लेयर्स तक, क्रम में, फिर आउटपुट पर जाता है।
जब हम पीछे की ओर जाते हैं और नुकसान / लागत को कम करने के लिए वजन को समायोजित करना शुरू करते हैं, तो इसे कहा जाता है back propagation.
यह एक optimization problem. तंत्रिका नेटवर्क के साथ, वास्तविक व्यवहार में, हमें सैकड़ों हजारों चर, या लाखों, या अधिक से निपटना होगा।
पहला तरीका स्टोचैस्टिक ग्रेडिएंट डिसेंट को ऑप्टिमाइज़ेशन विधि के रूप में उपयोग करना था। अब, वहाँ AdaGrad, एडम अनुकूलक और इतने पर जैसे विकल्प हैं। किसी भी तरह से, यह एक बड़े पैमाने पर कम्प्यूटेशनल ऑपरेशन है। इसीलिए न्यूरल नेटवर्क्स को ज्यादातर आधी सदी के लिए शेल्फ पर छोड़ दिया जाता था। यह केवल हाल ही में था कि हमारे पास हमारी मशीनों में शक्ति और वास्तुकला भी थी, यहां तक कि इन कार्यों को करने पर विचार करने के लिए, और ठीक से आकार के डेटासेट का मिलान करने के लिए।
सरल वर्गीकरण कार्यों के लिए, तंत्रिका नेटवर्क K के निकटतम पड़ोसियों जैसे अन्य सरल एल्गोरिदम के प्रदर्शन में अपेक्षाकृत करीब है। तंत्रिका नेटवर्क की वास्तविक उपयोगिता का एहसास तब होता है जब हमारे पास बहुत बड़ा डेटा होता है, और बहुत अधिक जटिल प्रश्न होते हैं, जो दोनों अन्य मशीन लर्निंग मॉडल को बेहतर बनाते हैं।
एक गहरी तंत्रिका नेटवर्क (DNN) इनपुट और आउटपुट परतों के बीच कई छिपी परतों के साथ एक ANN है। उथले एएनएन के समान, डीएनएन जटिल गैर-रैखिक संबंध मॉडल कर सकते हैं।
तंत्रिका नेटवर्क का मुख्य उद्देश्य आदानों का एक सेट प्राप्त करना, उन पर उत्तरोत्तर जटिल गणना करना, और वर्गीकरण जैसी वास्तविक दुनिया की समस्याओं को हल करने के लिए आउटपुट देना है। हम खुद को आगे के तंत्रिका नेटवर्क को खिलाने के लिए प्रतिबंधित करते हैं।
हमारे पास एक इनपुट, एक आउटपुट और एक गहरे नेटवर्क में अनुक्रमिक डेटा का प्रवाह है।
तंत्रिका नेटवर्क व्यापक रूप से पर्यवेक्षित सीखने और सुदृढीकरण सीखने की समस्याओं में उपयोग किया जाता है। ये नेटवर्क एक दूसरे से जुड़ी परतों के समूह पर आधारित हैं।
गहरी शिक्षा में, छिपी हुई परतों की संख्या, ज्यादातर गैर-रैखिक, बड़ी हो सकती है; 1000 परतों के बारे में कहना।
डीएल मॉडल सामान्य एमएल नेटवर्क की तुलना में बहुत बेहतर परिणाम देते हैं।
हम ज्यादातर नेटवर्क को अनुकूलित करने और नुकसान फ़ंक्शन को कम करने के लिए ढाल वंश विधि का उपयोग करते हैं।
हम उपयोग कर सकते हैं Imagenetबिल्लियों और कुत्तों जैसी श्रेणियों में डेटासेट को वर्गीकृत करने के लिए लाखों डिजिटल चित्रों का भंडार। डीएल नेट का उपयोग स्थिर छवियों के अलावा और समय श्रृंखला और पाठ विश्लेषण के लिए गतिशील छवियों के लिए किया जाता है।
डेटा सेट का प्रशिक्षण डीप लर्निंग मॉडल का एक महत्वपूर्ण हिस्सा है। इसके अलावा, डीएल मॉडल के प्रशिक्षण में बैकप्रॉपैगैनेशन मुख्य एल्गोरिथ्म है।
डीएल जटिल इनपुट आउटपुट ट्रांसफ़ॉर्मेशन के साथ बड़े न्यूरल नेटवर्क के प्रशिक्षण से संबंधित है।
डीएल का एक उदाहरण फोटो में व्यक्ति (ओं) के नाम के लिए फोटो का मानचित्रण है जैसा कि वे सोशल नेटवर्क पर करते हैं और एक वाक्यांश के साथ एक तस्वीर का वर्णन करना डीएल का एक और हालिया अनुप्रयोग है।
तंत्रिका नेटवर्क ऐसे कार्य हैं जिनमें एक्स 1, एक्स 2, एक्स 3 जैसे इनपुट होते हैं ... जो कि जेड 1, जेड 2, जेड 3 जैसे आउटपुट में बदल जाते हैं और इसी तरह दो (उथले नेटवर्क) या कई मध्यवर्ती संचालन को लेयर्स (डीप नेटवर्क) भी कहा जाता है।
वज़न और पूर्वाग्रह परत से परत तक बदलते हैं। 'w ’और w v’ तंत्रिका नेटवर्क की परतों का भार या पर्याय हैं।
गहरी सीखने का सबसे अच्छा उपयोग निगरानी सीखने की समस्या है। हमारे पास आउटपुट के वांछित सेट के साथ बड़े डेटा इनपुट हैं।
यहां हम सही आउटपुट भविष्यवाणी प्राप्त करने के लिए वापस प्रसार एल्गोरिथम लागू करते हैं।
गहन सीखने का सबसे बुनियादी डेटा सेट MNIST, हस्तलिखित अंकों का डेटासेट है।
हम इस डेटासेट से हस्तलिखित अंकों की छवियों को वर्गीकृत करने के लिए केरस के साथ एक कन्वेंशनल न्यूरल नेटवर्क को प्रशिक्षित कर सकते हैं।
न्यूरल नेट क्लासिफायर की फायरिंग या सक्रियता एक स्कोर पैदा करती है। उदाहरण के लिए, रोगियों को बीमार और स्वस्थ के रूप में वर्गीकृत करने के लिए, हम ऊंचाई, वजन और शरीर के तापमान, रक्तचाप आदि जैसे मापदंडों पर विचार करते हैं।
एक उच्च स्कोर का मतलब है कि रोगी बीमार है और एक कम स्कोर का मतलब है कि वह स्वस्थ है।
आउटपुट और छिपी परतों में प्रत्येक नोड का अपना क्लासिफायर है। इनपुट लेयर इनपुट लेती है और इसके स्कोर्स पर अगली सक्रियण के लिए अगली छिपी लेयर पर जाती है और यह आउटपुट तक पहुंचने तक चलती है।
इनपुट से आउटपुट तक की प्रगति को आगे की दिशा में बाएं से दाएं तक कहा जाता है forward propagation.
एक तंत्रिका नेटवर्क में क्रेडिट असाइनमेंट पथ (CAP) इनपुट से आउटपुट तक शुरू होने वाले परिवर्तनों की श्रृंखला है। इनपुट और आउटपुट के बीच संभावित संभावित कनेक्शनों को विस्तृत करता है।
किसी दिए गए फ़ीड फॉरवर्ड न्यूरल नेटवर्क या सीएपी की गहराई के लिए सीएपी की गहराई छिपी हुई परतों की संख्या है और साथ ही आउटपुट परत भी शामिल है। आवर्तक तंत्रिका नेटवर्क के लिए, जहां एक संकेत कई बार एक परत के माध्यम से फैल सकता है, सीएपी गहराई संभावित असीम हो सकती है।
डीप नेट और शैलो नेट
गहराई की कोई स्पष्ट सीमा नहीं है जो गहरी सीखने से उथले सीखने को विभाजित करती है; लेकिन यह ज्यादातर माना जाता है कि गहरी सीखने के लिए जिसमें कई गैर-रैखिक परतें हैं, सीएपी दो से अधिक होना चाहिए।
एक तंत्रिका जाल में मूल नोड एक जैविक तंत्रिका नेटवर्क में एक न्यूरॉन की नकल करने वाली धारणा है। फिर हमारे पास बहुस्तरीय धारणा या एमएलपी है। इनपुट के प्रत्येक सेट को वज़न और पूर्वाग्रहों के एक सेट द्वारा संशोधित किया जाता है; प्रत्येक किनारे का एक अद्वितीय वजन होता है और प्रत्येक नोड में एक अद्वितीय पूर्वाग्रह होता है।
भविष्यवाणी accuracy एक तंत्रिका जाल के अपने पर निर्भर करता है weights and biases.
तंत्रिका नेटवर्क की सटीकता में सुधार की प्रक्रिया को कहा जाता है training. फॉरवर्ड प्रोप नेट से आउटपुट की तुलना उस मान से की जाती है जिसे सही माना जाता है।
cost function or the loss function उत्पन्न आउटपुट और वास्तविक आउटपुट के बीच अंतर है।
प्रशिक्षण का उद्देश्य लाखों प्रशिक्षण उदाहरणों के बीच प्रशिक्षण की लागत को यथासंभव छोटा करना है। ऐसा करने के लिए, नेटवर्क वजन और पूर्वाग्रह को ट्विस्ट करता है जब तक कि भविष्यवाणी सही आउटपुट से मेल नहीं खाती।
एक बार अच्छी तरह से प्रशिक्षित होने के बाद, एक तंत्रिका जाल में हर बार एक सटीक भविष्यवाणी करने की क्षमता होती है।
जब पैटर्न जटिल हो जाता है और आप चाहते हैं कि आपका कंप्यूटर उन्हें पहचान सके, तो आपको तंत्रिका नेटवर्क के लिए जाना होगा। ऐसे जटिल पैटर्न परिदृश्यों में, तंत्रिका नेटवर्क अन्य प्रतिस्पर्धी एल्गोरिदम को बेहतर बनाता है।
अब ऐसे GPU हैं जो उन्हें पहले से कहीं अधिक तेज़ी से प्रशिक्षित कर सकते हैं। डीप न्यूरल नेटवर्क पहले से ही AI के क्षेत्र में क्रांति ला रहे हैं
कंप्यूटर दोहरावदार गणना करने और विस्तृत निर्देशों का पालन करने में अच्छे साबित हुए हैं लेकिन जटिल पैटर्न को पहचानने में इतना अच्छा नहीं रहा है।
यदि साधारण पैटर्न की पहचान की समस्या है, तो एक सपोर्ट वेक्टर मशीन (svm) या लॉजिस्टिक रिग्रेशन क्लासिफायर काम को अच्छी तरह से कर सकता है, लेकिन पैटर्नकिंस्रिड्स की जटिलता के रूप में, गहरे तंत्रिका नेटवर्क के लिए जाने के अलावा कोई रास्ता नहीं है।
इसलिए, मानव चेहरे की तरह जटिल पैटर्न के लिए, उथले तंत्रिका नेटवर्क विफल होते हैं और अधिक परतों के साथ गहरे तंत्रिका नेटवर्क के लिए जाने के अलावा कोई विकल्प नहीं होता है। गहरे जाल सरल पैटर्न में जटिल पैटर्न को तोड़कर अपना काम करने में सक्षम हैं। उदाहरण के लिए, मानव चेहरा; एडिप नेट किनारों का उपयोग होंठों, नाक, आंखों, कानों इत्यादि जैसे हिस्सों का पता लगाने के लिए करता है और फिर इन्हें मिलाकर एक मानव चेहरा बनाता है
सही भविष्यवाणी की सटीकता इतनी सटीक हो गई है कि हाल ही में Google पैटर्न रिकॉग्निशन चैलेंज में, एक मानव को एक गहरी जाल ने हरा दिया।
कुछ समय के लिए स्तरित perceptrons के एक वेब का यह विचार आसपास रहा है; इस क्षेत्र में, गहरा जाल मानव मस्तिष्क की नकल करता है। लेकिन इसका एक नकारात्मक पहलू यह है कि वे प्रशिक्षण के लिए लंबा समय लेते हैं, एक हार्डवेयर बाधा
हालाँकि हाल के उच्च प्रदर्शन वाले GPU एक सप्ताह के भीतर इस तरह के गहरे जाल को प्रशिक्षित करने में सक्षम हैं; जबकि तेजी से cpus को ऐसा करने में हफ्तों या शायद महीनों लग सकते थे।
एक डीप नेट चुनना
डीप नेट कैसे चुने? हमें यह तय करना होगा कि क्या हम एक क्लासिफायर का निर्माण कर रहे हैं या यदि हम डेटा में पैटर्न ढूंढने की कोशिश कर रहे हैं और अगर हम अप्रशिक्षित सीखने का उपयोग करने जा रहे हैं। अनलिस्टेड डेटा के सेट से पैटर्न निकालने के लिए, हम एक प्रतिबंधित बोल्ट्जमैन मशीन या एक ऑटो एनकोडर का उपयोग करते हैं।
गहरा जाल चुनते समय निम्नलिखित बातों पर विचार करें -
पाठ प्रसंस्करण, भावना विश्लेषण, पार्सिंग और नाम इकाई मान्यता के लिए, हम एक आवर्तक जाल या पुनरावर्ती तंत्रिका टेंसर नेटवर्क या RNTN का उपयोग करते हैं;
किसी भी भाषा मॉडल के लिए जो चरित्र स्तर पर काम करता है, हम आवर्तक नेट का उपयोग करते हैं।
छवि मान्यता के लिए, हम डीएनबी या दृढ़ नेटवर्क वाले गहरे विश्वास नेटवर्क का उपयोग करते हैं।
ऑब्जेक्ट मान्यता के लिए, हम एक RNTN या एक अवक्षेपण नेटवर्क का उपयोग करते हैं।
भाषण मान्यता के लिए, हम आवर्तक नेट का उपयोग करते हैं।
सामान्य तौर पर, रेक्टिफाइड लीनियर यूनिट्स या RELU के साथ गहरे विश्वास नेटवर्क और मल्टीलेयर परसेप्ट्रॉन दोनों ही वर्गीकरण के लिए अच्छे विकल्प हैं।
समय श्रृंखला विश्लेषण के लिए, यह हमेशा आवर्तक जाल का उपयोग करने की सिफारिश की जाती है।
तंत्रिका जाल लगभग 50 से अधिक वर्षों से हैं; लेकिन केवल अब वे प्रमुखता में बढ़ गए हैं। कारण यह है कि उन्हें प्रशिक्षित करना कठिन है; जब हम उन्हें वापस प्रचार नामक एक विधि के साथ प्रशिक्षित करने की कोशिश करते हैं, तो हम एक समस्या में चले जाते हैं जिसे लुप्त हो जाना या विस्फोट ग्रेडिएंट कहा जाता है। जब ऐसा होता है, तो प्रशिक्षण में अधिक समय लगता है और सटीकता पीछे की सीट लगती है। डेटा सेट का प्रशिक्षण करते समय, हम लगातार लागत फ़ंक्शन की गणना कर रहे हैं, जो कि लेबल किए गए प्रशिक्षण डेटा के एक सेट से अनुमानित आउटपुट और वास्तविक आउटपुट के बीच का अंतर है। तब न्यूनतम मान तक वजन और पूर्वाग्रह मानों को समायोजित करके लागत फ़ंक्शन को कम से कम किया जाता है। पाया जाता है। प्रशिक्षण प्रक्रिया एक ढाल का उपयोग करती है, जो वह दर है जिस पर वजन या पूर्वाग्रह मूल्यों में परिवर्तन के संबंध में लागत बदल जाएगी।
प्रतिबंधित बोल्ट्ज़मैन नेटवर्क या ऑटोएन्कोडर्स - आरबीएन
2006 में, गायब होने वाले ग्रेडिएंट्स के मुद्दे से निपटने में एक सफलता हासिल की गई। ज्योफ हिंटन ने एक उपन्यास रणनीति तैयार की जिसके कारण विकास हुआRestricted Boltzman Machine - RBM, एक उथले दो परत जाल।
पहली परत है visible लेयर और दूसरी लेयर होती है hiddenपरत। दृश्य परत में प्रत्येक नोड छिपी हुई परत में प्रत्येक नोड से जुड़ा होता है। नेटवर्क को प्रतिबंधित के रूप में जाना जाता है क्योंकि एक ही परत के भीतर दो परतों को एक कनेक्शन साझा करने की अनुमति नहीं है।
Autoencoders नेटवर्क हैं जो वैक्टर के रूप में इनपुट डेटा को एनकोड करते हैं। वे एक छिपे हुए, या संकुचित, कच्चे डेटा का प्रतिनिधित्व करते हैं। वैक्टर आयामी कमी में उपयोगी हैं; वेक्टर कच्चे डेटा को आवश्यक आयामों की छोटी संख्या में संपीड़ित करता है। ऑटोएन्कोडर्स को डिकोडर्स के साथ जोड़ा जाता है, जो इसके छिपे प्रतिनिधित्व के आधार पर इनपुट डेटा के पुनर्निर्माण की अनुमति देता है।
आरबीएम दो तरफा अनुवादक के गणितीय समकक्ष है। एक आगे पास इनपुट लेता है और उन्हें संख्याओं के एक समूह में बदल देता है जो इनपुट्स को एन्कोड करता है। एक पिछड़ा पास इस बीच संख्या का सेट लेता है और उन्हें पुनर्निर्मित इनपुट में वापस अनुवाद करता है। एक अच्छी तरह से प्रशिक्षित शुद्ध उच्च सटीकता के साथ वापस प्रोप करता है।
या तो चरणों में, भार और पूर्वाग्रह की महत्वपूर्ण भूमिका होती है; वे आरबीएम को आदानों के बीच अंतर्संबंधों को डिकोड करने में मदद करते हैं और यह तय करने में कि कौन से इनपुट पैटर्न का पता लगाने में आवश्यक हैं। फॉरवर्ड और बैकवर्ड पास के माध्यम से, आरबीएम को अलग-अलग वेट और बायसेस के साथ इनपुट को फिर से निर्माण करने के लिए प्रशिक्षित किया जाता है जब तक कि इनपुट और कंस्ट्रक्शन उतने करीब न हों। आरबीएम का एक दिलचस्प पहलू यह है कि डेटा को लेबल करने की आवश्यकता नहीं है। यह वास्तविक विश्व डेटा सेट जैसे फ़ोटो, वीडियो, आवाज़ और सेंसर डेटा के लिए बहुत महत्वपूर्ण है, जो सभी को अप्रकाशित करते हैं। मनुष्यों द्वारा मैन्युअल रूप से लेबलिंग डेटा के बजाय, आरबीएम स्वचालित रूप से डेटा के माध्यम से सॉर्ट करता है; उचित रूप से वजन और गैसों को समायोजित करके, एक आरबीएम महत्वपूर्ण विशेषताओं को निकालने और इनपुट को फिर से संगठित करने में सक्षम है। आरबीएम फीचर एक्सट्रैक्टर न्यूरल नेट के परिवार का एक हिस्सा है, जो डेटा में निहित पैटर्न को पहचानने के लिए डिज़ाइन किया गया है। इन्हें ऑटो-एनकोडर्स भी कहा जाता है क्योंकि उन्हें अपनी संरचना को एनकोड करना पड़ता है।
डीप बिलिफ़ नेटवर्क्स - DBNs
गहन विश्वास नेटवर्क (डीबीएन) आरबीएम के संयोजन और एक चतुर प्रशिक्षण पद्धति को शुरू करने से बनते हैं। हमारे पास एक नया मॉडल है जो अंत में गायब होने वाली ढाल की समस्या को हल करता है। ज्योफ हिंटन ने आरबीएम का आविष्कार किया और बैक प्रोपगेशन के विकल्प के रूप में डीप बेलिफ़ नेट्स का भी।
एक डीबीएन एक एमएलपी (मल्टी-लेयर पर्सेप्ट्रॉन) की संरचना में समान है, लेकिन जब यह प्रशिक्षण की बात आती है तो बहुत अलग है। यह प्रशिक्षण है जो DBNs को अपने उथले समकक्षों को बेहतर बनाने में सक्षम बनाता है
एक डीबीएन को आरबीएम के ढेर के रूप में देखा जा सकता है जहां एक आरबीएम की छिपी परत उसके ऊपर आरबीएम की दृश्यमान परत होती है। पहले आरबीएम को अपने इनपुट को यथासंभव सटीक रूप से फिर से संगठित करने के लिए प्रशिक्षित किया जाता है।
पहली RBM की छिपी परत को दूसरी RBM की दृश्य परत के रूप में लिया जाता है और दूसरे RBM को पहले RBM से आउटपुट का उपयोग करके प्रशिक्षित किया जाता है। यह प्रक्रिया तब तक प्रसारित की जाती है जब तक कि नेटवर्क की प्रत्येक परत प्रशिक्षित न हो जाए।
डीबीएन में, प्रत्येक आरबीएम पूरे इनपुट को सीखता है। एक DBN उत्तराधिकार में संपूर्ण इनपुट को ठीक करके विश्व स्तर पर काम करता है क्योंकि मॉडल धीरे-धीरे एक कैमरा लेंस की तरह धीरे-धीरे एक तस्वीर को फोकस करता है। आरबीएम का एक स्टैक एक एकल आरबीएम को बहु-परत पेरिसेप्ट्रोन एमएलपी आउटपरफॉर्म के रूप में एक एकल रिसेप्टर के रूप में बेहतर बनाता है।
इस स्तर पर, आरबीएम ने डेटा में निहित पैटर्न का पता लगाया है, लेकिन बिना किसी नाम या लेबल के। डीबीएन का प्रशिक्षण समाप्त करने के लिए, हमें पैटर्न पर लेबल लगाना होगा और पर्यवेक्षित शिक्षण के साथ नेट को ट्यून करना होगा।
हमें लेबल नमूनों का एक बहुत छोटा सेट चाहिए ताकि सुविधाओं और पैटर्न को एक नाम के साथ जोड़ा जा सके। प्रशिक्षण के लिए डेटा के इस छोटे लेबल वाले सेट का उपयोग किया जाता है। मूल डेटा सेट की तुलना में लेबल डेटा का यह सेट बहुत छोटा हो सकता है।
वज़न और पूर्वाग्रहों को थोड़ा बदल दिया जाता है, जिसके परिणामस्वरूप पैटर्न की शुद्ध धारणा में एक छोटा सा परिवर्तन होता है और अक्सर कुल सटीकता में एक छोटी सी वृद्धि होती है।
उथले जालों की तुलना में बहुत सटीक परिणाम देने वाले जीपीयू का उपयोग करके प्रशिक्षण भी उचित समय में पूरा किया जा सकता है और हम धीरे-धीरे होने वाली समस्या का भी समाधान कर सकते हैं।
जनरेटिव एडवरसरी नेटवर्क - GANs
पीढ़ी के प्रतिकूल नेटवर्क गहरे तंत्रिका जाल होते हैं, जिनमें दो जाल होते हैं, एक दूसरे के विपरीत, इस प्रकार "प्रतिकूल" नाम।
2014 में मॉन्ट्रियल विश्वविद्यालय के शोधकर्ताओं द्वारा प्रकाशित एक पेपर में GAN को पेश किया गया था। फेसबुक के AI विशेषज्ञ यान लेकन ने GANs का जिक्र करते हुए कहा, "एमएल में पिछले 10 वर्षों में सबसे दिलचस्प विचार" प्रशिक्षण।
जीएएनएस की क्षमता बहुत बड़ी है, क्योंकि नेटवर्क-स्कैन डेटा के किसी भी वितरण की नकल करना सीखता है। GANs को समानांतर दुनिया बनाने के लिए किसी भी डोमेन में हमारे स्वयं के समान हड़ताली दुनिया बनाने के लिए सिखाया जा सकता है: चित्र, संगीत, भाषण, गद्य। वे एक तरह से रोबोट कलाकार हैं, और उनका आउटपुट काफी प्रभावशाली है।
जीएएन में, एक तंत्रिका नेटवर्क, जिसे जनरेटर के रूप में जाना जाता है, नए डेटा इंस्टेंसेस उत्पन्न करता है, जबकि दूसरा, विवेचक, उन्हें प्रामाणिकता के लिए मूल्यांकन करता है।
हम कहते हैं कि हम MNIST डेटासेट में पाए जाने वाले हस्त-लिखित अंक उत्पन्न करने का प्रयास कर रहे हैं, जो वास्तविक दुनिया से लिया गया है। विवेकशील का काम, जब सच्चे MNIST डेटासेट से एक उदाहरण दिखाया जाता है, तो उन्हें प्रामाणिक के रूप में पहचानना है।
अब GAN के निम्नलिखित चरणों पर विचार करें -
जनरेटर नेटवर्क यादृच्छिक संख्याओं के रूप में इनपुट लेता है और एक छवि देता है।
यह जेनरेट की गई छवि को वास्तविक डेटासेट से ली गई छवियों की एक धारा के साथ डिस्क्रिमिनेटर नेटवर्क के इनपुट के रूप में दिया गया है।
विवेचक वास्तविक और नकली दोनों छवियों को लेता है और संभाव्यताएं देता है, 0 और 1 के बीच की एक संख्या, 1 प्रामाणिकता की भविष्यवाणी का प्रतिनिधित्व करता है और 0 नकली का प्रतिनिधित्व करता है।
तो आपके पास एक दोहरी प्रतिक्रिया पाश है -
विवेचक छवियों के जमीनी सच्चाई के साथ एक प्रतिक्रिया पाश में है, जिसे हम जानते हैं।
जनरेटर विवेचक के साथ एक प्रतिक्रिया पाश में है।
आवर्तक तंत्रिका नेटवर्क - आरएनएन
RNNतंत्रिका तंत्रिका नेटवर्क जिसमें डेटा किसी भी दिशा में प्रवाहित हो सकता है। इन नेटवर्कों का उपयोग भाषा मॉडलिंग या प्राकृतिक भाषा प्रसंस्करण (एनएलपी) जैसे अनुप्रयोगों के लिए किया जाता है।
RNN अंतर्निहित मूल अवधारणा अनुक्रमिक जानकारी का उपयोग करना है। एक सामान्य तंत्रिका नेटवर्क में यह माना जाता है कि सभी इनपुट और आउटपुट एक दूसरे से स्वतंत्र हैं। यदि हम अगले शब्द की भविष्यवाणी एक वाक्य में करना चाहते हैं तो हमें यह जानना होगा कि इसके पहले कौन से शब्द आए थे।
RNN को आवर्तक कहा जाता है क्योंकि वे अनुक्रम के प्रत्येक तत्व के लिए समान कार्य को दोहराते हैं, जिसमें आउटपुट पिछली गणनाओं पर आधारित होता है। इस प्रकार आरएनएन को एक "मेमोरी" कहा जा सकता है जो पहले गणना की गई जानकारी के बारे में जानकारी प्राप्त करता है। सिद्धांत रूप में, आरएनएन बहुत लंबे अनुक्रमों में जानकारी का उपयोग कर सकते हैं, लेकिन वास्तव में, वे केवल कुछ कदम पीछे देख सकते हैं।
दीर्घकालिक अल्पकालिक मेमोरी नेटवर्क (LSTM) आरएनएन का सबसे अधिक उपयोग किया जाता है।
सजातीय तंत्रिका नेटवर्क के साथ, RNN का उपयोग एक मॉडल के भाग के रूप में किया गया है ताकि असंबद्ध छवियों के लिए विवरण तैयार किया जा सके। यह काफी आश्चर्यजनक है कि यह कितना अच्छा लगता है।
संवैधानिक दीप तंत्रिका संबंधी नेटवर्क - CNNs
यदि हम एक तंत्रिका नेटवर्क में परतों की संख्या को और अधिक गहरा बनाने के लिए बढ़ाते हैं, तो यह नेटवर्क की जटिलता को बढ़ाता है और हमें उन कार्यों को मॉडल करने की अनुमति देता है जो अधिक जटिल हैं। हालांकि, वज़न और पूर्वाग्रह की संख्या में तेजी से वृद्धि होगी। तथ्य की बात के रूप में, इस तरह की कठिन समस्याओं को सीखना सामान्य तंत्रिका नेटवर्क के लिए असंभव हो सकता है। यह एक समाधान, दृढ़ तंत्रिका नेटवर्क की ओर जाता है।
CNN का व्यापक रूप से कंप्यूटर विज़न में उपयोग किया जाता है; स्वचालित भाषण मान्यता के लिए ध्वनिक मॉडलिंग में भी लागू किया गया है।
दृढ़ तंत्रिका नेटवर्क के पीछे का विचार "मूविंग फिल्टर" का विचार है जो छवि से गुजरता है। यह मूविंग फ़िल्टर, या कनवल्शन, नोड्स के एक निश्चित पड़ोस पर लागू होता है, उदाहरण के लिए पिक्सेल हो सकते हैं, जहाँ लगाया गया फ़िल्टर 0.5 x नोड मान है -
प्रसिद्ध शोधकर्ता यान लेकुन ने दृढ़ तंत्रिका नेटवर्क का नेतृत्व किया। फेसियल रिकग्निशन सॉफ्टवेयर के रूप में फेसबुक इन नेट्स का उपयोग करता है। सीएनएन मशीन विजन प्रोजेक्ट्स के समाधान के लिए गया है। एक दृढ़ नेटवर्क के लिए कई परतें हैं। Imagenet चुनौती में, एक मशीन ने 2015 में एक मानव को ऑब्जेक्ट मान्यता पर हरा दिया।
संक्षेप में, संवेदी तंत्रिका नेटवर्क (CNN) बहु-परत तंत्रिका नेटवर्क हैं। परतें कभी-कभी 17 या अधिक तक होती हैं और इनपुट डेटा को चित्र मानती हैं।
CNNs ने उन मापदंडों की संख्या को काफी कम कर दिया है जिन्हें ट्यून करने की आवश्यकता है। इसलिए, CNN कुशलतापूर्वक कच्ची छवियों की उच्च आयामीता को संभालते हैं।
इस अध्याय में, हम पायथन डीप लर्निंग के मूल सिद्धांतों पर ध्यान देंगे।
डीप लर्निंग मॉडल / एल्गोरिदम
आइए अब हम विभिन्न गहन शिक्षण मॉडल / एल्गोरिदम के बारे में जानें।
गहरी शिक्षा के भीतर कुछ लोकप्रिय मॉडल इस प्रकार हैं -
- संवादी तंत्रिका नेटवर्क
- आवर्तक तंत्रिका नेटवर्क
- गहरा विश्वास नेटवर्क
- पीढ़ी के प्रतिकूल नेटवर्क
- ऑटो-एनकोडर वगैरह
इनपुट और आउटपुट को वैक्टर या टेन्सर के रूप में दर्शाया जाता है। उदाहरण के लिए, एक तंत्रिका नेटवर्क में इनपुट हो सकते हैं जहां एक छवि में व्यक्तिगत पिक्सेल RGB मूल्यों को वैक्टर के रूप में दर्शाया जाता है।
न्यूरॉन्स की परतें जो इनपुट परत और आउटपुट परत के बीच स्थित होती हैं उन्हें छिपी हुई परतें कहा जाता है। यह वह जगह है जहां ज्यादातर काम तब होता है जब तंत्रिका जाल समस्याओं को हल करने की कोशिश करता है। छिपी हुई परतों पर बारीकी से नज़र रखने से उन विशेषताओं के बारे में बहुत कुछ पता चल सकता है जो नेटवर्क ने डेटा से निकालना सीखा है।
अगली परत में अन्य न्यूरॉन्स से कनेक्ट करने के लिए कौन से न्यूरॉन्स का चयन करके तंत्रिका नेटवर्क के विभिन्न आर्किटेक्चर का निर्माण किया जाता है।
आउटपुट की गणना के लिए स्यूडोकोड
निम्नलिखित आउटपुट के गणना के लिए छद्मकोश है Forward-propagating Neural Network -
- # नोड []: = स्थूल रूप से सॉर्ट किए गए नोड्स की सरणी
- # ए टू बी से एक किनारे का मतलब बी के बाईं ओर है
- # यदि न्यूरल नेटवर्क में आर इनपुट और एस आउटपुट हैं,
- # फिर पहले R नोड्स इनपुट नोड होते हैं और अंतिम S नोड आउटपुट नोड होते हैं।
- # आने वाली [x]: = नोड्स नोड नोड से जुड़ी
- # वजन [x]: = आने वाले किनारों का वजन x
प्रत्येक न्यूरॉन x के लिए, बाएं से दाएं -
- अगर x <= R: कुछ भी नहीं # इसकी इनपुट नोड है
- इनपुट [x] = [आउटपुट [i] इनकमिंग [x] में मेरे लिए
- भारित_सम = डॉट_प्रोडक्ट (वजन [x], इनपुट [x])
- आउटपुट [x] = एक्टिवेशन_फंक्शन (भारित_सम)
अब हम सीखेंगे कि तंत्रिका नेटवर्क को कैसे प्रशिक्षित किया जाए। हम पायथन डीप लर्निंग में बैक प्रोग्रेस एल्गोरिथ्म और बैकवर्ड पास भी सीखेंगे।
हमें वांछित आउटपुट प्राप्त करने के लिए एक तंत्रिका नेटवर्क के वजन के इष्टतम मूल्यों को खोजना होगा। एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए, हम पुनरावृत्त ढाल मूल विधि का उपयोग करते हैं। हम शुरू में वजन के यादृच्छिक आरंभ के साथ शुरू करते हैं। यादृच्छिक आरंभीकरण के बाद, हम आगे के प्रसार प्रक्रिया के साथ डेटा के कुछ सबसेट पर भविष्यवाणियां करते हैं, संबंधित लागत फ़ंक्शन C की गणना करते हैं, और प्रत्येक वजन w को dC / dw के अनुपात के अनुसार अपडेट करते हैं, यानी लागत कार्यों के व्युत्पन्न wrt वजन। आनुपातिकता स्थिरांक को अधिगम दर के रूप में जाना जाता है।
ग्रैडिएंट्स की गणना बैक-प्रोपोग्रेशन एल्गोरिथम का उपयोग करके कुशलता से की जा सकती है। पिछड़े प्रसार या पिछड़े प्रचार का मुख्य अवलोकन यह है कि भेदभाव की श्रृंखला नियम के कारण, तंत्रिका नेटवर्क में प्रत्येक न्यूरॉन में ढाल को न्यूरॉन्स पर ग्रेडिएंट का उपयोग करके गणना की जा सकती है, इसमें आउटगोइंग किनारों हैं। इसलिए, हम ग्रेडिएंट्स की गणना पीछे की ओर करते हैं, अर्थात, पहले आउटपुट लेयर के ग्रेडिएंट्स की गणना करते हैं, फिर टॉप-मोस्ट हिडन लेयर, उसके बाद प्रिडिक्टिंग हिडन लेयर, और इसी तरह इनपुट लेयर पर समाप्त होती है।
बैक-प्रोपगेशन एल्गोरिथ्म को ज्यादातर कम्प्यूटेशनल ग्राफ के विचार का उपयोग करके लागू किया जाता है, जहां प्रत्येक न्यूरॉन को कम्प्यूटेशनल ग्राफ में कई नोड्स तक विस्तारित किया जाता है और इसके अलावा गुणा, गुणा जैसे सरल गणितीय ऑपरेशन करता है। कम्प्यूटेशनल ग्राफ में किनारों पर कोई भार नहीं है; सभी वज़न नोड्स को सौंपे जाते हैं, इसलिए वज़न अपने स्वयं के नोड बन जाते हैं। पिछड़े प्रसार एल्गोरिथ्म को तब कम्प्यूटेशनल ग्राफ पर चलाया जाता है। एक बार गणना पूरी हो जाने के बाद, अपडेट के लिए केवल वज़न नोड्स के ग्रेडिएंट की आवश्यकता होती है। बाकी ग्रेडिएंट्स को छोड़ दिया जा सकता है।
ग्रेडिएंट डिसेंट ऑप्टिमाइज़ेशन तकनीक
आमतौर पर इस्तेमाल किया जाने वाला अनुकूलन फ़ंक्शन जो उनके द्वारा की गई त्रुटि के अनुसार वजन को समायोजित करता है, उसे "ढाल वंश" कहा जाता है।
ढाल एक xy ग्राफ पर ढलान, और ढलान के लिए एक और नाम है, यह दर्शाता है कि दो चर एक दूसरे से कैसे संबंधित हैं: रन पर वृद्धि, समय में परिवर्तन से दूरी में बदलाव, आदि। इस मामले में, ढलान है नेटवर्क की त्रुटि और एक एकल भार के बीच का अनुपात; यानी, वजन में बदलाव के कारण त्रुटि कैसे बदलती है।
इसे अधिक सटीक रूप से रखने के लिए, हम यह खोजना चाहते हैं कि कौन सा वजन कम से कम त्रुटि पैदा करता है। हम उस भार को खोजना चाहते हैं जो इनपुट डेटा में निहित संकेतों का सही प्रतिनिधित्व करता है, और उन्हें एक सही वर्गीकरण में अनुवाद करता है।
जैसा कि एक तंत्रिका नेटवर्क सीखता है, यह धीरे-धीरे कई वज़न को समायोजित करता है ताकि वे सिग्नल को सही ढंग से मैप कर सकें। नेटवर्क एरर और प्रत्येक वेट के बीच का अनुपात एक व्युत्पन्न, dE / dw है, जो इस बात की गणना करता है कि वजन में मामूली बदलाव त्रुटि में मामूली बदलाव का कारण बनता है।
प्रत्येक वजन एक गहरे नेटवर्क में सिर्फ एक कारक है जिसमें कई परिवर्तन शामिल हैं; वजन का संकेत कई परतों में सक्रियण और रकम से होकर गुजरता है, इसलिए हम नेटवर्क सक्रियण और आउटपुट के माध्यम से वापस काम करने के लिए पथरी के चेन नियम का उपयोग करते हैं। यह हमें प्रश्न में वजन की ओर ले जाता है, और समग्र त्रुटि के लिए इसका संबंध है।
दो चर, त्रुटि और वजन को देखते हुए, एक तीसरे चर द्वारा मध्यस्थता की जाती है, activationजिसके माध्यम से वजन पारित किया जाता है। हम गणना कर सकते हैं कि कैसे वजन में बदलाव पहली गणना में त्रुटि में बदलाव को प्रभावित करता है, कैसे सक्रियण में परिवर्तन त्रुटि में परिवर्तन को प्रभावित करता है, और कैसे वजन में परिवर्तन सक्रियण में परिवर्तन को प्रभावित करता है।
गहरी शिक्षा में मूल विचार इससे अधिक कुछ नहीं है: जब तक आप किसी त्रुटि को कम नहीं कर सकते, तब तक किसी त्रुटि के जवाब में एक मॉडल के वजन को समायोजित करना।
यदि मूल्य अधिक है, तो धीरे-धीरे गहरी नेट गाड़ियों को ढाल दिया जाता है। प्रशिक्षण में कोई भी त्रुटिपूर्ण त्रुटिपूर्ण आउटपुट की ओर ले जाता है। आउटपुट से इनपुट पर वापस जाल को प्रशिक्षित करने की प्रक्रिया को वापस प्रसार या बैक प्रोप कहा जाता है। हम जानते हैं कि आगे का प्रसार इनपुट से शुरू होता है और आगे काम करता है। बैक प्रोप दाएं से बाएं से ग्रेडिएंट की उल्टी / विपरीत गणना करता है।
जितनी बार हम एक ढाल की गणना करते हैं, हम उस बिंदु तक सभी पिछले ग्रेडिएंट का उपयोग करते हैं।
हमें आउटपुट लेयर में एक नोड पर शुरू करते हैं। किनारे उस नोड पर ढाल का उपयोग करता है। जैसा कि हम छिपी हुई परतों में वापस जाते हैं, यह अधिक जटिल हो जाता है। 0 और 1 के बीच की दो संख्याओं का गुणनफल आपको छोटी संख्या देता है। ग्रेडिएंट वैल्यू छोटी होती जा रही है और परिणामस्वरूप बैक प्रॉप को प्रशिक्षित होने में बहुत समय लगता है और सटीकता में कमी आती है।
डीप लर्निंग एल्गोरिदम में चुनौतियां
दोनों उथले तंत्रिका नेटवर्क और गहरे तंत्रिका नेटवर्क के लिए कुछ चुनौतियां हैं, जैसे ओवरफिटिंग और गणना समय। DNNs ओवरफिटिंग से प्रभावित होते हैं क्योंकि अमूर्त की अतिरिक्त परतों का उपयोग जो उन्हें प्रशिक्षण डेटा में दुर्लभ निर्भरता मॉडल करने की अनुमति देता है।
Regularizationओवरफिटिंग से निपटने के लिए प्रशिक्षण के दौरान ड्रॉप आउट, शुरुआती रोक, डेटा वृद्धि, स्थानांतरण सीखने जैसे तरीके लागू होते हैं। नियमितीकरण को छोड़ दें प्रशिक्षण के दौरान छिपी हुई परतों से बेतरतीब ढंग से इकाइयों को छोड़ दिया जाता है जो दुर्लभ निर्भरता से बचने में मदद करता है। DNNs कई प्रशिक्षण मापदंडों जैसे आकार, यानी, परतों की संख्या और प्रति परत इकाइयों की संख्या, सीखने की दर और प्रारंभिक भार को ध्यान में रखते हैं। समय और कम्प्यूटेशनल संसाधनों में उच्च लागत के कारण इष्टतम पैरामीटर खोजना हमेशा व्यावहारिक नहीं होता है। कई हैक्स जैसे कि बैचिंग से गणना में तेजी आ सकती है। GPU की बड़ी प्रसंस्करण शक्ति ने प्रशिक्षण प्रक्रिया में काफी मदद की है, क्योंकि आवश्यक मैट्रिक्स और वेक्टर गणना GPUs पर अच्छी तरह से निष्पादित होती हैं।
ड्रॉप आउट
ड्रॉपआउट तंत्रिका नेटवर्क के लिए एक लोकप्रिय नियमितीकरण तकनीक है। डीप न्यूरल नेटवर्क विशेष रूप से ओवरफिटिंग का शिकार होते हैं।
आइए अब देखते हैं कि ड्रॉपआउट क्या है और यह कैसे काम करता है।
डीप लर्निंग के अग्रदूतों में से एक, जेफ्री हिंटन के शब्दों में, 'यदि आपके पास एक गहरा तंत्रिका जाल है और यह ओवरफिटिंग नहीं है, तो आपको संभवतः एक बड़ा उपयोग करना चाहिए और ड्रॉपआउट का उपयोग करना चाहिए।'
ड्रॉपआउट एक ऐसी तकनीक है जहां ग्रेडिएंट डिसेंट के प्रत्येक पुनरावृत्ति के दौरान, हम बेतरतीब ढंग से चुने गए नोड्स का एक सेट छोड़ते हैं। इसका मतलब है कि हम कुछ नोड्स को बेतरतीब ढंग से अनदेखा करते हैं जैसे कि वे मौजूद नहीं हैं।
प्रत्येक न्यूरॉन को q की प्रायिकता के साथ रखा जाता है और प्रायिकता 1-q के साथ अनियमित रूप से गिराया जाता है। तंत्रिका नेटवर्क में प्रत्येक परत के लिए मान q भिन्न हो सकता है। छिपी हुई परतों के लिए 0.5 का मान, और इनपुट परत के लिए 0 कार्यों की एक विस्तृत श्रृंखला पर अच्छी तरह से काम करता है।
मूल्यांकन और भविष्यवाणी के दौरान, कोई ड्रॉपआउट का उपयोग नहीं किया जाता है। प्रत्येक न्यूरॉन के आउटपुट को q से गुणा किया जाता है ताकि अगली परत के इनपुट में समान अपेक्षित मूल्य हो।
ड्रॉपआउट के पीछे का विचार इस प्रकार है - ड्रॉपआउट नियमितीकरण के बिना एक तंत्रिका नेटवर्क में, न्यूरॉन्स एक दूसरे के बीच सह-निर्भरता विकसित करते हैं जो ओवरफिटिंग की ओर जाता है।
कार्यान्वयन की चाल
ड्रॉपआउट को लाइब्रेरी में लागू किया जाता है जैसे कि टेन्सरफ्लो और पाइटोरेक को बेतरतीब ढंग से चुने गए न्यूरॉन्स के आउटपुट को 0. के रूप में रखते हुए। हालांकि, न्यूरॉन मौजूद है, इसका आउटपुट 0 के रूप में ओवरराइट किया गया है।
जल्दी रोकना
हम क्रमिक वंश नामक एक पुनरावृत्त एल्गोरिथ्म का उपयोग करके तंत्रिका नेटवर्क को प्रशिक्षित करते हैं।
प्रारंभिक रोक के पीछे विचार सहज है; जब त्रुटि बढ़ने लगती है तो हम प्रशिक्षण रोक देते हैं। यहां, त्रुटि से हमारा मतलब है सत्यापन डेटा पर मापी गई त्रुटि, जो हाइपर-मापदंडों को ट्यूनिंग के लिए उपयोग किए जाने वाले प्रशिक्षण डेटा का हिस्सा है। इस मामले में, हाइपर-पैरामीटर स्टॉप मानदंड है।
डेटा ऑगमेंटेशन
वह प्रक्रिया जहां हम अपने पास मौजूद डेटा का उपयोग करके या उस पर कुछ परिवर्तनों को लागू करके हमारे पास मौजूद डेटा की मात्रा बढ़ाते हैं या इसे बढ़ाते हैं। उपयोग किए गए सटीक परिवर्तन उस कार्य पर निर्भर करते हैं जिसे हम प्राप्त करना चाहते हैं। इसके अलावा, रूपांतरण जो तंत्रिका जाल को इसकी वास्तुकला पर निर्भर करने में मदद करते हैं।
उदाहरण के लिए, ऑब्जेक्ट वर्गीकरण जैसे कई कंप्यूटर विज़न कार्यों में, एक प्रभावी डेटा वृद्धि तकनीक नए डेटा बिंदुओं को जोड़ रही है जो मूल डेटा के क्रॉप या अनुवादित संस्करण हैं।
जब एक कंप्यूटर इनपुट के रूप में एक छवि को स्वीकार करता है, तो यह पिक्सेल मूल्यों की एक सरणी में ले जाता है। बता दें कि पूरी इमेज को 15 पिक्सल्स द्वारा छोड़ा गया है। हम विभिन्न दिशाओं में कई अलग-अलग बदलाव लागू करते हैं, जिसके परिणामस्वरूप मूल डेटासेट के आकार में कई बार संवर्धित डेटासेट होता है।
लर्निंग ट्रांसफर
पूर्व-प्रशिक्षित मॉडल और "फाइन-ट्यूनिंग" लेने की प्रक्रिया को हमारे अपने डेटासेट के साथ मॉडल को ट्रांसफर लर्निंग कहा जाता है। ऐसा करने के कई तरीके हैं। कुछ तरीके नीचे वर्णित हैं -
हम एक बड़े डेटासेट पर पूर्व-प्रशिक्षित मॉडल को प्रशिक्षित करते हैं। फिर, हम नेटवर्क की अंतिम परत को हटाते हैं और इसे एक नई परत के साथ यादृच्छिक भार के साथ बदलते हैं।
हम फिर अन्य सभी परतों के भार को फ्रीज करते हैं और नेटवर्क को सामान्य रूप से प्रशिक्षित करते हैं। यहां परतें जमने से ढाल वंशानुक्रम या अनुकूलन के दौरान वज़न नहीं बदल रहा है।
इसके पीछे अवधारणा यह है कि पूर्व-प्रशिक्षित मॉडल एक फीचर एक्सट्रक्टर के रूप में कार्य करेगा, और वर्तमान कार्य पर केवल अंतिम परत को प्रशिक्षित किया जाएगा।
बैकप्रॉपैगमेंट को कम्प्यूटेशनल ग्राफ़ का उपयोग करके, गहन शिक्षण ढांचे जैसे कि टेंसोरफ़्लो, मशाल, थीनो, आदि में लागू किया जाता है। अधिक महत्वपूर्ण रूप से, कम्प्यूटेशनल रेखांकन पर वापस प्रसार को समझना कई अलग-अलग एल्गोरिदम और इसके भिन्नरूपों को जोड़ता है जैसे कि समय के माध्यम से बैकप्रॉप और साझा भार के साथ बैकप्रॉप। एक बार जब सब कुछ एक कम्प्यूटेशनल ग्राफ में बदल जाता है, तो वे अभी भी एक ही एल्गोरिथ्म हैं - कम्प्यूटेशनल ग्राफ़ पर बस वापस प्रचार।
कम्प्यूटेशनल ग्राफ क्या है
एक कम्प्यूटेशनल ग्राफ को एक निर्देशित ग्राफ के रूप में परिभाषित किया जाता है जहां नोड्स गणितीय कार्यों के अनुरूप होते हैं। कम्प्यूटेशनल रेखांकन गणितीय अभिव्यक्ति को व्यक्त करने और मूल्यांकन करने का एक तरीका है।
उदाहरण के लिए, यहाँ एक सरल गणितीय समीकरण है -
$$p = x+y$$
हम उपरोक्त समीकरण के एक कम्प्यूटेशनल ग्राफ को निम्नानुसार आकर्षित कर सकते हैं।
उपरोक्त कम्प्यूटेशनल ग्राफ में दो इनपुट चर x और y और एक आउटपुट q के साथ एक अतिरिक्त नोड ("+" चिह्न के साथ नोड) है।
हम एक और उदाहरण लेते हैं, थोड़ा और जटिल। हमारे पास निम्नलिखित समीकरण हैं।
$$g = \left (x+y \right ) \ast z $$
उपरोक्त समीकरण को निम्नलिखित कम्प्यूटेशनल ग्राफ द्वारा दर्शाया गया है।
कम्प्यूटेशनल रेखांकन और Backpropagation
कम्प्यूटेशनल रेखांकन और बैकप्रोपैजेशन, दोनों तंत्रिका नेटवर्क के प्रशिक्षण के लिए गहन सीखने में महत्वपूर्ण मुख्य अवधारणाएं हैं।
अग्रवर्ती पारण
फॉरवर्ड पास कम्प्यूटेशनल रेखांकन द्वारा दर्शाए गए गणितीय अभिव्यक्ति के मूल्य का मूल्यांकन करने की प्रक्रिया है। फॉरवर्ड पास करने का मतलब है कि हम वेरिएबल्स से वैल्यू को आगे की ओर लेफ्ट (इनपुट) से दाईं ओर ले जा रहे हैं, जहां आउटपुट है।
आइए हम सभी इनपुट्स के लिए कुछ मूल्य देकर एक उदाहरण पर विचार करें। मान लीजिए, सभी इनपुट के लिए निम्न मान दिए गए हैं।
$$x=1, y=3, z=−3$$
इनपुट्स को ये मान देकर, हम फॉरवर्ड पास का प्रदर्शन कर सकते हैं और प्रत्येक नोड पर आउटपुट के लिए निम्न मान प्राप्त कर सकते हैं।
सबसे पहले, हम p = 4 प्राप्त करने के लिए x = 1 और y = 3 के मान का उपयोग करते हैं।
फिर हम g = -12 प्राप्त करने के लिए p = 4 और z = -3 का उपयोग करते हैं। हम बाएं से दाएं, आगे की ओर जाते हैं।
बैकवर्ड पास के उद्देश्य
बैकवर्ड पास में, हमारा उद्देश्य अंतिम आउटपुट के संबंध में प्रत्येक इनपुट के लिए ग्रेडिएंट्स की गणना करना है। ये ग्रेडिएंट ग्रेडिएंट डिसेंट का उपयोग करके तंत्रिका नेटवर्क के प्रशिक्षण के लिए आवश्यक हैं।
उदाहरण के लिए, हम निम्नलिखित ढ़ाल की इच्छा रखते हैं।
वांछित ग्रेडिएंट्स
$$\frac{\partial x}{\partial f}, \frac{\partial y}{\partial f}, \frac{\partial z}{\partial f}$$
बैकवर्ड पास (बैकप्रॉपैजेशन)
हम अंतिम आउटपुट (स्वयं!) के संबंध में अंतिम आउटपुट के व्युत्पन्न को पाकर पिछड़े मार्ग की शुरुआत करते हैं। इस प्रकार, यह पहचान व्युत्पत्ति में परिणाम देगा और मूल्य एक के बराबर है।
$$\frac{\partial g}{\partial g} = 1$$
हमारा कम्प्यूटेशनल ग्राफ अब नीचे दिखाया गया है -
अगला, हम "*" ऑपरेशन के माध्यम से पिछड़े पास करेंगे। हम p और z पर ग्रेडिएंट्स की गणना करेंगे। चूंकि g = p * z, हम जानते हैं कि -
$$\frac{\partial g}{\partial z} = p$$
$$\frac{\partial g}{\partial p} = z$$
हम पहले से ही z और p के मूल्यों को आगे पास से जानते हैं। इसलिए, हम प्राप्त करते हैं -
$$\frac{\partial g}{\partial z} = p = 4$$
तथा
$$\frac{\partial g}{\partial p} = z = -3$$
हम एक्स और वाई पर ग्रेडिएंट की गणना करना चाहते हैं -
$$\frac{\partial g}{\partial x}, \frac{\partial g}{\partial y}$$
हालाँकि, हम इसे कुशलता से करना चाहते हैं (हालाँकि x और g इस ग्राफ में केवल दो हॉप्स हैं, कल्पना करें कि वे वास्तव में एक दूसरे से बहुत दूर हैं)। इन मूल्यों की कुशलता से गणना करने के लिए, हम भेदभाव के श्रृंखला नियम का उपयोग करेंगे। चेन शासन से, हमारे पास है -
$$\frac{\partial g}{\partial x}=\frac{\partial g}{\partial p}\ast \frac{\partial p}{\partial x}$$
$$\frac{\partial g}{\partial y}=\frac{\partial g}{\partial p}\ast \frac{\partial p}{\partial y}$$
लेकिन हम पहले से ही जानते हैं कि dg / dp = -3, dp / dx और dp / dy आसान है क्योंकि p सीधे x और y पर निर्भर करता है। हमारे पास है -
$$p=x+y\Rightarrow \frac{\partial x}{\partial p} = 1, \frac{\partial y}{\partial p} = 1$$
इसलिए, हम प्राप्त करते हैं -
$$\frac{\partial g} {\partial f} = \frac{\partial g} {\partial p}\ast \frac{\partial p} {\partial x} = \left ( -3 \right ).1 = -3$$
इसके अलावा, इनपुट y के लिए -
$$\frac{\partial g} {\partial y} = \frac{\partial g} {\partial p}\ast \frac{\partial p} {\partial y} = \left ( -3 \right ).1 = -3$$
इसे पीछे करने का मुख्य कारण यह है कि जब हमें x पर ग्रेडिएंट की गणना करनी होती थी, तो हम केवल पहले से ही गणना किए गए मानों का उपयोग करते थे, और dq / dx (समान नोड के इनपुट के संबंध में नोड आउटपुट का व्युत्पन्न)। हमने वैश्विक मूल्य की गणना करने के लिए स्थानीय जानकारी का उपयोग किया।
एक तंत्रिका नेटवर्क के प्रशिक्षण के लिए कदम
तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए इन चरणों का पालन करें -
डेटा पॉइंट x के लिए डेटासेट में, हम इनपुट के रूप में x के साथ आगे पास करते हैं, और आउटपुट के रूप में लागत c की गणना करते हैं।
हम सी पर शुरू होने वाले बैकवर्ड पास करते हैं, और ग्राफ में सभी नोड्स के लिए ग्रेडिएंट्स की गणना करते हैं। इसमें नोड्स शामिल हैं जो तंत्रिका नेटवर्क भार का प्रतिनिधित्व करते हैं।
हम तब W = W - सीखने की दर * ढ़ाल कर वेट को अपडेट करते हैं।
हम इस प्रक्रिया को तब तक दोहराते हैं जब तक स्टॉप मापदंड पूरा नहीं हो जाता।
डीप लर्निंग ने कंप्यूटर विज़न, लैंग्वेज ट्रांसलेशन, इमेज कैप्शनिंग, ऑडियो ट्रांसक्रिप्शन, मॉलिक्यूलर बायोलॉजी, स्पीच रिकग्निशन, नेचुरल लैंग्वेज प्रोसेसिंग, सेल्फ ड्राइविंग कार, ब्रेन ट्यूमर डिटेक्शन, रियल-टाइम स्पीच ट्रांसलेशन, म्यूज़िक जैसे कुछ अनुप्रयोगों के लिए अच्छे परिणाम दिए हैं। रचना, स्वचालित खेल खेल और इतने पर।
अधिक उन्नत कार्यान्वयन के साथ मशीन सीखने के बाद डीप लर्निंग अगली बड़ी छलांग है। वर्तमान में, यह एक उद्योग मानक बनने की ओर बढ़ रहा है, जब कच्चे असंरचित डेटा से निपटने के लिए गेम चेंजर होने का एक मजबूत वादा किया गया है।
डीप लर्निंग वर्तमान में वास्तविक दुनिया की समस्याओं की एक विस्तृत समाधान प्रदाताओं में से एक है। डेवलपर्स एआई कार्यक्रमों का निर्माण कर रहे हैं, जो पहले दिए गए नियमों का उपयोग करने के बजाय जटिल कार्यों को हल करने के लिए उदाहरणों से सीखते हैं। कई डेटा वैज्ञानिकों द्वारा गहन सीखने के साथ, गहरे तंत्रिका नेटवर्क ऐसे परिणाम प्रदान कर रहे हैं जो कभी भी अधिक सटीक होते हैं।
यह विचार है कि प्रत्येक नेटवर्क के लिए प्रशिक्षण परतों की संख्या में वृद्धि करके गहरे तंत्रिका नेटवर्क का विकास किया जाए; मशीन डेटा के बारे में अधिक जानती है जब तक कि यह यथासंभव सटीक न हो। डेवलपर्स जटिल मशीन शिक्षण कार्यों को लागू करने के लिए गहरी शिक्षण तकनीकों का उपयोग कर सकते हैं, और अवधारणात्मक मान्यता के उच्च स्तर के लिए एआई नेटवर्क को प्रशिक्षित कर सकते हैं।
डीप लर्निंग कंप्यूटर की दृष्टि में अपनी लोकप्रियता पाता है। यहां प्राप्त कार्यों में से एक छवि वर्गीकरण है जहां दिए गए इनपुट चित्रों को बिल्ली, कुत्ते, आदि के रूप में वर्गीकृत किया गया है या एक वर्ग या लेबल के रूप में वर्गीकृत किया गया है जो छवि का सबसे अच्छा वर्णन करता है। जब हम मनुष्य सीखते हैं कि यह कार्य हमारे जीवन में बहुत पहले कैसे किया जाता है और पैटर्न को जल्दी पहचानने, पूर्व ज्ञान से सामान्यीकरण और विभिन्न छवि वातावरणों के अनुकूल होने के ये कौशल हैं।
इस अध्याय में, हम अलग-अलग पुस्तकालयों और रूपरेखाओं के बारे में गहरी सीख देंगे।
डीप लर्निंग और थीनो
यदि हम एक गहरे तंत्रिका नेटवर्क को कोडित करना शुरू करना चाहते हैं, तो बेहतर है कि हमारे पास एक विचार है कि थीनो, टेंसोरफ्लो, केरस, पाइरॉच आदि जैसे विभिन्न फ्रेमवर्क कैसे काम करते हैं।
थीनो पाइथन लाइब्रेरी है जो हमारे मशीन पर जल्दी से प्रशिक्षण देने वाले गहरे जाल बनाने के लिए कार्यों का एक सेट प्रदान करता है।
थीनो का विकास मॉन्ट्रियल विश्वविद्यालय, कनाडा में योशुआ बेंगियो के नेतृत्व में एक गहरे शुद्ध अग्रदूत के रूप में हुआ था।
थीनो हमें वैक्टर और मैट्रेस के साथ गणितीय अभिव्यक्तियों को परिभाषित करने और मूल्यांकन करने देता है जो संख्याओं के आयताकार सरणियाँ हैं।
तकनीकी रूप से, तंत्रिका जाल और इनपुट डेटा दोनों को मैट्रिक्स के रूप में दर्शाया जा सकता है और सभी मानक नेट संचालन को मैट्रिक्स ऑपरेशन के रूप में पुनर्परिभाषित किया जा सकता है। यह महत्वपूर्ण है क्योंकि कंप्यूटर बहुत तेज़ी से मैट्रिक्स ऑपरेशन कर सकते हैं।
हम समानांतर में कई मैट्रिक्स मानों को संसाधित कर सकते हैं और यदि हम इस अंतर्निहित संरचना के साथ एक तंत्रिका जाल का निर्माण करते हैं, तो हम उचित समय विंडो में विशाल जाल को प्रशिक्षित करने के लिए GPU के साथ एक एकल मशीन का उपयोग कर सकते हैं।
हालाँकि अगर हम थीनो का उपयोग करते हैं, तो हमें जमीन से गहरे जाल का निर्माण करना होगा। विशिष्ट प्रकार के गहरे जाल बनाने के लिए पुस्तकालय पूर्ण कार्यक्षमता प्रदान नहीं करता है।
इसके बजाय, हमें मॉडल, परतों, सक्रियण, प्रशिक्षण पद्धति और ओवरफिटिंग को रोकने के लिए किसी विशेष तरीके जैसे गहरे जाल के हर पहलू को कोड करना होगा।
हालांकि अच्छी खबर यह है कि थीनो हमें एक उच्च अनुकूलित समाधान प्रदान करते हुए सदिश कार्यों के शीर्ष पर हमारे कार्यान्वयन की अनुमति देता है।
कई अन्य पुस्तकालय हैं जो थीनो की कार्यक्षमता का विस्तार करते हैं। TensorFlow और Keras बैकेंड के रूप में थीनो के साथ इस्तेमाल किया जा सकता है।
TensorFlow के साथ डीप लर्निंग
Googles TensorFlow एक अजगर पुस्तकालय है। यह लाइब्रेरी कमर्शियल ग्रेड डीप लर्निंग एप्लिकेशन बनाने के लिए एक बेहतरीन विकल्प है।
TensorFlow एक अन्य लाइब्रेरी DistBelief V2 से विकसित हुआ जो Google ब्रेन प्रोजेक्ट का एक हिस्सा था। इस लाइब्रेरी का उद्देश्य मशीन लर्निंग की पोर्टेबिलिटी को बढ़ाना है ताकि रिसर्च मॉडल को कमर्शियल-ग्रेड एप्लिकेशन पर लागू किया जा सके।
थीनो लाइब्रेरी की तरह, TensorFlow कम्प्यूटेशनल ग्राफ़ पर आधारित है, जहाँ एक नोड लगातार डेटा या गणित संचालन का प्रतिनिधित्व करता है और किनारों नोड्स के बीच डेटा के प्रवाह का प्रतिनिधित्व करता है, जो एक बहुआयामी सरणी या टेन्सर है; इसलिए TensorFlow नाम
एक ऑपरेशन या ऑपरेशन के सेट से आउटपुट को इनपुट के रूप में अगले में खिलाया जाता है।
भले ही TensorFlow को तंत्रिका नेटवर्क के लिए डिज़ाइन किया गया था, यह अन्य नेट के लिए अच्छी तरह से काम करता है, जहां परिकलन को प्रवाह प्रवाह ग्राफ के रूप में तैयार किया जा सकता है।
TensorFlow, Theano से कई विशेषताओं का भी उपयोग करता है जैसे सामान्य और उप-अभिव्यक्ति उन्मूलन, ऑटो भेदभाव, साझा और प्रतीकात्मक चर।
TensorFlow का उपयोग करके विभिन्न प्रकार के गहरे जालों का निर्माण किया जा सकता है, जैसे कि संकेंद्रित जाल, Autoencoders, RNTN, RNN, RBM, DBM / MLP और इसी तरह।
हालाँकि, TensorFlow में हाइपर पैरामीटर कॉन्फ़िगरेशन के लिए कोई समर्थन नहीं है। इस कार्यक्षमता के लिए, हम Keras का उपयोग कर सकते हैं।
डीप लर्निंग और केरेस
केरस गहरी शिक्षण मॉडल के विकास और मूल्यांकन के लिए एक शक्तिशाली आसान-से-उपयोग पायथन पुस्तकालय है।
इसमें एक न्यूनतम डिजाइन है जो हमें परत द्वारा शुद्ध परत बनाने की अनुमति देता है; इसे प्रशिक्षित करें, और इसे चलाएं।
यह कुशल संख्यात्मक अभिकलन पुस्तकालयों Theano और TensorFlow को लपेटता है और हमें कोड के कुछ ही लाइनों में तंत्रिका नेटवर्क मॉडल को परिभाषित करने और प्रशिक्षित करने की अनुमति देता है।
यह एक उच्च-स्तरीय तंत्रिका नेटवर्क एपीआई है, जो गहन सीखने और कृत्रिम बुद्धिमत्ता का व्यापक उपयोग करने में मदद करता है। यह TensorFlow, Theano, और इतने पर सहित कई निम्न-स्तरीय पुस्तकालयों के शीर्ष पर चलता है। केरस कोड पोर्टेबल है; हम कोड में किसी भी बदलाव के बिना समाप्त हुए थीनो या टेन्सरफ्लो का उपयोग करके केरस में एक तंत्रिका नेटवर्क को लागू कर सकते हैं।
डीप लर्निंग के इस कार्यान्वयन में, हमारा उद्देश्य एक निश्चित बैंक के लिए ग्राहक के आकर्षण या मंथन डेटा की भविष्यवाणी करना है - जो ग्राहक इस बैंक सेवा को छोड़ने की संभावना रखते हैं। डेटासेट का उपयोग अपेक्षाकृत छोटा है और इसमें 14 स्तंभों वाली 10000 पंक्तियाँ हैं। हम एनाकोंडा वितरण का उपयोग कर रहे हैं, और थीनो, टेंसोरफ्लो और केरस जैसे ढांचे। Keras को Tensorflow और Theano के ऊपर बनाया गया है जो इसके बैकेंड के रूप में कार्य करता है।
# Artificial Neural Network
# Installing Theano
pip install --upgrade theano
# Installing Tensorflow
pip install –upgrade tensorflow
# Installing Keras
pip install --upgrade keras
चरण 1: डेटा प्रीप्रोसेसिंग
In[]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
# Importing the database
dataset = pd.read_csv('Churn_Modelling.csv')
चरण 2
हम डेटासेट और लक्ष्य चर की विशेषताओं को बनाते हैं, जो स्तंभ 14 है, जिसे "बाहर" के रूप में लेबल किया गया है।
डेटा का प्रारंभिक रूप नीचे दिखाया गया है -
In[]:
X = dataset.iloc[:, 3:13].values
Y = dataset.iloc[:, 13].values
X
उत्पादन
चरण 3
Y
उत्पादन
array([1, 0, 1, ..., 1, 1, 0], dtype = int64)
चरण 4
हम स्ट्रिंग चर एन्कोडिंग द्वारा विश्लेषण को सरल बनाते हैं। हम 0 से n_classes-1 के बीच के मानों के साथ कॉलम में विभिन्न लेबल को स्वचालित रूप से एन्कोड करने के लिए ScikitLearn फ़ंक्शन 'LabelEncoder' का उपयोग कर रहे हैं।
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
labelencoder_X_1 = LabelEncoder()
X[:,1] = labelencoder_X_1.fit_transform(X[:,1])
labelencoder_X_2 = LabelEncoder()
X[:, 2] = labelencoder_X_2.fit_transform(X[:, 2])
X
उत्पादन
उपरोक्त आउटपुट में, देश के नाम 0, 1 और 2 द्वारा प्रतिस्थापित किए जाते हैं; जबकि पुरुष और महिला को 0 और 1 से बदल दिया जाता है।
चरण 5
Labelling Encoded Data
हम उसी का उपयोग करते हैं ScikitLearn पुस्तकालय और एक अन्य समारोह बुलाया OneHotEncoder बस एक डमी चर बनाने कॉलम संख्या पारित करने के लिए।
onehotencoder = OneHotEncoder(categorical features = [1])
X = onehotencoder.fit_transform(X).toarray()
X = X[:, 1:]
X
अब, पहले 2 कॉलम देश का प्रतिनिधित्व करते हैं और 4 वां कॉलम लिंग का प्रतिनिधित्व करता है।
उत्पादन
हम हमेशा अपने डेटा को प्रशिक्षण और परीक्षण भाग में विभाजित करते हैं; हम अपने मॉडल को प्रशिक्षण डेटा पर प्रशिक्षित करते हैं और फिर हम परीक्षण डेटा पर एक मॉडल की सटीकता की जांच करते हैं जो मॉडल की दक्षता का मूल्यांकन करने में मदद करता है।
चरण 6
हम ScikitLearn's का उपयोग कर रहे हैं train_test_splitहमारे डेटा को प्रशिक्षण सेट और परीक्षण सेट में विभाजित करने के लिए कार्य करता है। हम ट्रेन-टू-स्प्लिट अनुपात को 80:20 तक रखते हैं।
#Splitting the dataset into the Training set and the Test Set
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2)
कुछ चरों का मान हजारों में होता है जबकि कुछ का मान दसियों या उससे अधिक होता है। हम डेटा को स्केल करते हैं ताकि वे अधिक प्रतिनिधि हों।
चरण 7
इस कोड में, हम प्रशिक्षण डेटा का उपयोग करके फिटिंग और रूपांतरण कर रहे हैं StandardScalerसमारोह। हम अपने स्केलिंग को मानकीकृत करते हैं ताकि हम परीक्षण डेटा को बदलने / स्केल करने के लिए उसी फिटेड विधि का उपयोग करें।
# Feature Scaling
fromsklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)
उत्पादन
डेटा अब ठीक से स्केल किया गया है। अंत में, हम अपने डेटा पूर्व प्रसंस्करण के साथ किया जाता है। अब, हम अपने मॉडल के साथ शुरुआत करेंगे।
चरण 8
हम यहां आवश्यक मॉड्यूल आयात करते हैं। हमें छिपे हुए परतों को जोड़ने के लिए तंत्रिका नेटवर्क और घने मॉड्यूल को शुरू करने के लिए अनुक्रमिक मॉड्यूल की आवश्यकता है।
# Importing the Keras libraries and packages
import keras
from keras.models import Sequential
from keras.layers import Dense
चरण 9
हम मॉडल का नाम क्लासिफायर के रूप में रखेंगे क्योंकि हमारा उद्देश्य ग्राहक मंथन को वर्गीकृत करना है। तब हम आरंभ के लिए अनुक्रमिक मॉड्यूल का उपयोग करते हैं।
#Initializing Neural Network
classifier = Sequential()
चरण 10
हम घने फ़ंक्शन का उपयोग करके एक-एक करके छिपी हुई परतों को जोड़ते हैं। नीचे दिए गए कोड में, हम कई तर्क देखेंगे।
हमारा पहला पैरामीटर है output_dim। यह इस परत को जोड़ने वाली नोड्स की संख्या है।initस्टोकेस्टिक ग्रेडिएंट डिसेंट का आरंभीकरण है। एक तंत्रिका नेटवर्क में हम प्रत्येक नोड को भार प्रदान करते हैं। आरंभीकरण के समय, वज़न शून्य के पास होना चाहिए और हम एकसमान फ़ंक्शन का उपयोग करके वज़न को बेतरतीब ढंग से आरंभ कर सकते हैं। input_dimपैरामीटर केवल पहली परत के लिए आवश्यक है, क्योंकि मॉडल को हमारे इनपुट चर की संख्या नहीं पता है। यहां इनपुट चर की कुल संख्या 11. है दूसरी परत में, मॉडल पहले छिपी हुई परत से इनपुट चर की संख्या को स्वचालित रूप से जानता है।
इनपुट लेयर और पहली छिपी हुई लेयर को जोड़ने के लिए कोड की निम्न लाइन को निष्पादित करें -
classifier.add(Dense(units = 6, kernel_initializer = 'uniform',
activation = 'relu', input_dim = 11))
दूसरी छिपी परत को जोड़ने के लिए कोड की निम्न पंक्ति निष्पादित करें -
classifier.add(Dense(units = 6, kernel_initializer = 'uniform',
activation = 'relu'))
आउटपुट लेयर को जोड़ने के लिए कोड की निम्नलिखित लाइन का निष्पादन करें -
classifier.add(Dense(units = 1, kernel_initializer = 'uniform',
activation = 'sigmoid'))
चरण 11
Compiling the ANN
हमने अब तक अपने क्लासिफायर में कई लेयर्स जोड़े हैं। अब हम उनका उपयोग करके संकलन करेंगेcompileतरीका। अंतिम संकलन नियंत्रण में जोड़ा गया तर्क तंत्रिका नेटवर्क को पूरा करता है। इसलिए, हमें इस चरण में सावधान रहने की आवश्यकता है।
यहाँ तर्कों की संक्षिप्त व्याख्या दी गई है।
पहला तर्क है Optimizerयह एक एल्गोरिथ्म है जिसका उपयोग वजन के इष्टतम सेट को खोजने के लिए किया जाता है। इस एल्गोरिथ्म को कहा जाता हैStochastic Gradient Descent (SGD)। यहां हम कई प्रकारों में से एक का उपयोग कर रहे हैं, जिसे 'एडम ऑप्टिमाइज़र' कहा जाता है। SGD नुकसान पर निर्भर करता है, इसलिए हमारा दूसरा पैरामीटर नुकसान है। यदि हमारा आश्रित चर द्विआधारी है, तो हम लॉगरिदमिक लॉस फंक्शन का उपयोग करते हैं‘binary_crossentropy’, और अगर हमारे आश्रित चर में आउटपुट में दो से अधिक श्रेणियां हैं, तो हम उपयोग करते हैं ‘categorical_crossentropy’। हम अपने तंत्रिका नेटवर्क के प्रदर्शन को बेहतर बनाना चाहते हैंaccuracy, इसलिए हम जोड़ते हैं metrics सटीकता के रूप में।
# Compiling Neural Network
classifier.compile(optimizer = 'adam', loss = 'binary_crossentropy', metrics = ['accuracy'])
चरण 12
इस चरण में कई कोड निष्पादित किए जाने की आवश्यकता है।
प्रशिक्षण सेट के लिए ANN फिटिंग
अब हम प्रशिक्षण मॉडल पर अपने मॉडल को प्रशिक्षित करते हैं। हम उपयोग करते हैंfitहमारे मॉडल को फिट करने की विधि। हम मॉडल दक्षता में सुधार करने के लिए वजन को भी अनुकूलित करते हैं। इसके लिए वेट अपडेट करना होगा।Batch size टिप्पणियों की संख्या है जिसके बाद हम वज़न को अपडेट करते हैं। Epochपुनरावृत्तियों की कुल संख्या है। बैच आकार और युग के मूल्यों को परीक्षण और त्रुटि विधि द्वारा चुना जाता है।
classifier.fit(X_train, y_train, batch_size = 10, epochs = 50)
मॉडल का अनुमान लगाना और उसका मूल्यांकन करना
# Predicting the Test set results
y_pred = classifier.predict(X_test)
y_pred = (y_pred > 0.5)
एक नए अवलोकन का पूर्वानुमान
# Predicting a single new observation
"""Our goal is to predict if the customer with the following data will leave the bank:
Geography: Spain
Credit Score: 500
Gender: Female
Age: 40
Tenure: 3
Balance: 50000
Number of Products: 2
Has Credit Card: Yes
Is Active Member: Yes
चरण 13
Predicting the test set result
भविष्यवाणी परिणाम आपको ग्राहक को कंपनी छोड़ने की संभावना देगा। हम उस संभावना को बाइनरी 0 और 1 में बदल देंगे।
# Predicting the Test set results
y_pred = classifier.predict(X_test)
y_pred = (y_pred > 0.5)
new_prediction = classifier.predict(sc.transform
(np.array([[0.0, 0, 500, 1, 40, 3, 50000, 2, 1, 1, 40000]])))
new_prediction = (new_prediction > 0.5)
चरण 14
यह अंतिम चरण है जहां हम अपने मॉडल के प्रदर्शन का मूल्यांकन करते हैं। हमारे पास पहले से ही मूल परिणाम हैं और इस प्रकार हम अपने मॉडल की सटीकता की जांच करने के लिए भ्रम मैट्रिक्स का निर्माण कर सकते हैं।
Making the Confusion Matrix
from sklearn.metrics import confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print (cm)
उत्पादन
loss: 0.3384 acc: 0.8605
[ [1541 54]
[230 175] ]
भ्रम मैट्रिक्स से, हमारे मॉडल की सटीकता की गणना निम्न प्रकार की जा सकती है -
Accuracy = 1541+175/2000=0.858
We achieved 85.8% accuracy, कौन सा अच्छा है।
फ़ॉरवर्ड प्रोपोगेशन एल्गोरिथम
इस खंड में, हम सीखेंगे कि एक सरल तंत्रिका नेटवर्क के लिए आगे प्रसार (भविष्यवाणी) करने के लिए कोड कैसे लिखना है -
प्रत्येक डेटा बिंदु एक ग्राहक है। पहला इनपुट है कि उनके कितने खाते हैं, और दूसरा इनपुट है कि उनके कितने बच्चे हैं। मॉडल भविष्यवाणी करेगा कि उपयोगकर्ता अगले वर्ष में कितने लेनदेन करता है।
इनपुट डेटा को इनपुट डेटा के रूप में पहले से लोड किया जाता है, और वेट एक शब्दकोश में होता है जिसे वेट कहा जाता है। छिपी हुई परत में पहले नोड के लिए वेट का भार वज़न ['नोड_0'] में है, और छिपी हुई परत में दूसरे नोड के लिए क्रमशः वेट ['नोड_1'] में हैं।
आउटपुट नोड में फीडिंग वेट वजन में उपलब्ध हैं।
रेक्टीफाइड लीनियर एक्टिवेशन फंक्शन
एक "सक्रियण फ़ंक्शन" एक फ़ंक्शन है जो प्रत्येक नोड पर काम करता है। यह नोड के इनपुट को कुछ आउटपुट में बदल देता है।
रेक्टिफाइड लीनियर एक्टीवेशन फंक्शन (जिसे ReLU कहा जाता है ) का उपयोग बहुत ही उच्च-प्रदर्शन नेटवर्क में किया जाता है। यह फ़ंक्शन इनपुट के रूप में एक एकल संख्या लेता है, यदि रिटर्न ऋणात्मक है, और इनपुट सकारात्मक है तो इनपुट सकारात्मक है।
यहाँ कुछ उदाहरण हैं -
- relu (4) = 4
- relu (-2) = 0
हम रिले () फ़ंक्शन की परिभाषा में भरते हैं
- हम रिले () के आउटपुट के लिए मूल्य की गणना करने के लिए अधिकतम () फ़ंक्शन का उपयोग करते हैं।
- हम नोड_0_आउटपुट की गणना करने के लिए नोड_0_input पर रिले () फ़ंक्शन लागू करते हैं।
- हम नोड_1_input की गणना करने के लिए नोड_1_input पर relu () फ़ंक्शन को लागू करते हैं।
import numpy as np
input_data = np.array([-1, 2])
weights = {
'node_0': np.array([3, 3]),
'node_1': np.array([1, 5]),
'output': np.array([2, -1])
}
node_0_input = (input_data * weights['node_0']).sum()
node_0_output = np.tanh(node_0_input)
node_1_input = (input_data * weights['node_1']).sum()
node_1_output = np.tanh(node_1_input)
hidden_layer_output = np.array(node_0_output, node_1_output)
output =(hidden_layer_output * weights['output']).sum()
print(output)
def relu(input):
'''Define your relu activation function here'''
# Calculate the value for the output of the relu function: output
output = max(input,0)
# Return the value just calculated
return(output)
# Calculate node 0 value: node_0_output
node_0_input = (input_data * weights['node_0']).sum()
node_0_output = relu(node_0_input)
# Calculate node 1 value: node_1_output
node_1_input = (input_data * weights['node_1']).sum()
node_1_output = relu(node_1_input)
# Put node values into array: hidden_layer_outputs
hidden_layer_outputs = np.array([node_0_output, node_1_output])
# Calculate model output (do not apply relu)
odel_output = (hidden_layer_outputs * weights['output']).sum()
print(model_output)# Print model output
उत्पादन
0.9950547536867305
-3
डेटा के कई अवलोकन / पंक्तियों के लिए नेटवर्क को लागू करना
इस खंड में, हम यह सीखेंगे कि कैसे एक फ़ंक्शन को परिभाषित किया जाता है, जिसे predict_with_network () कहा जाता है। यह फ़ंक्शन input_data के रूप में ऊपर दिए गए नेटवर्क से लिए गए कई डेटा टिप्पणियों के लिए भविष्यवाणियां उत्पन्न करेगा। उपरोक्त नेटवर्क में दिए गए वज़न का उपयोग किया जा रहा है। रिले () फ़ंक्शन परिभाषा का भी उपयोग किया जा रहा है।
चलिए हम एक फ़ंक्शन को परिभाषित करते हैं, जिसे फोन किया गया है predict_with_network () जो दो तर्कों को स्वीकार करता है - input_data_row और वेट - और आउटपुट के रूप में नेटवर्क से एक भविष्यवाणी देता है।
हम प्रत्येक नोड के लिए इनपुट और आउटपुट मानों की गणना करते हैं, उन्हें निम्न रूप में संग्रहीत करते हैं: नोड_0_इनपुट, नोड_0_आउटपुट, नोड_1_इनपुट, और नोड_1_आउटपुट।
नोड के इनपुट मूल्य की गणना करने के लिए, हम संबंधित सरणियों को एक साथ गुणा करते हैं और उनकी राशि की गणना करते हैं।
नोड के आउटपुट मूल्य की गणना करने के लिए, हम नोड के इनपुट मूल्य के लिए रिले () फ़ंक्शन को लागू करते हैं। हम एक 'लूप के लिए' का उपयोग input_data पर पुनरावृति करने के लिए करते हैं -
हम input_data - input_data_row की प्रत्येक पंक्ति के लिए भविष्यवाणियों को उत्पन्न करने के लिए अपने predict_with_network () का भी उपयोग करते हैं। हम परिणामों के लिए प्रत्येक भविष्यवाणी को भी जोड़ते हैं।
# Define predict_with_network()
def predict_with_network(input_data_row, weights):
# Calculate node 0 value
node_0_input = (input_data_row * weights['node_0']).sum()
node_0_output = relu(node_0_input)
# Calculate node 1 value
node_1_input = (input_data_row * weights['node_1']).sum()
node_1_output = relu(node_1_input)
# Put node values into array: hidden_layer_outputs
hidden_layer_outputs = np.array([node_0_output, node_1_output])
# Calculate model output
input_to_final_layer = (hidden_layer_outputs*weights['output']).sum()
model_output = relu(input_to_final_layer)
# Return model output
return(model_output)
# Create empty list to store prediction results
results = []
for input_data_row in input_data:
# Append prediction to results
results.append(predict_with_network(input_data_row, weights))
print(results)# Print results
उत्पादन
[0, 12]
यहाँ हमने relu फ़ंक्शन का उपयोग किया है जहाँ relu (26) = 26 और relu (-13) = 0 और इतने पर।
डीप मल्टी-लेयर न्यूरल नेटवर्क
यहां हम दो छिपे हुए परतों के साथ एक तंत्रिका नेटवर्क के लिए आगे प्रसार करने के लिए कोड लिख रहे हैं। प्रत्येक छिपी हुई परत में दो नोड होते हैं। इनपुट डेटा को पहले से लोड किया गया हैinput_data। पहली छिपी परत में नोड्स को नोड_0_0 और नोड_0_1 कहा जाता है।
उनका भार क्रमशः भार ['नोड_0_0'] और भार ['नोड_0_1'] के रूप में होता है।
दूसरी छिपी परत में नोड्स को कहा जाता है node_1_0 and node_1_1। उनके वजन के रूप में पूर्व लोड कर रहे हैंweights['node_1_0'] तथा weights['node_1_1'] क्रमशः।
फिर हम पहले से लोड किए गए वेट का उपयोग करके छिपे हुए नोड से एक मॉडल आउटपुट बनाते हैं weights['output']।
हम अपने भार भार ['नोड_0_0'] और दिए गए input_data का उपयोग करके node_0_0_input की गणना करते हैं। फिर नोड_0_0_आउटपुट प्राप्त करने के लिए रिले () फ़ंक्शन लागू करें।
हम नोड_0_1_input को नोड_0_1_आउटपुट प्राप्त करने के लिए ऊपर की तरह ही करते हैं।
हम अपने वजन भार ['नोड_1_0'] और पहली छिपी परत से आउटपुट - hidden_0_outputs का उपयोग करके नोड_1_0_input की गणना करते हैं। फिर हम नोड_1_0_आउटपुट प्राप्त करने के लिए रिले () फ़ंक्शन को लागू करते हैं।
हम नोड_1_1_input को नोड_1_1_output प्राप्त करने के लिए ऊपर की तरह करते हैं।
हम वजन ['आउटपुट'] और दूसरी छुपी हुई परत_1_outputs सरणी से आउटपुट का उपयोग करके model_output की गणना करते हैं। हम इस आउटपुट पर रिले () फ़ंक्शन को लागू नहीं करते हैं।
import numpy as np
input_data = np.array([3, 5])
weights = {
'node_0_0': np.array([2, 4]),
'node_0_1': np.array([4, -5]),
'node_1_0': np.array([-1, 1]),
'node_1_1': np.array([2, 2]),
'output': np.array([2, 7])
}
def predict_with_network(input_data):
# Calculate node 0 in the first hidden layer
node_0_0_input = (input_data * weights['node_0_0']).sum()
node_0_0_output = relu(node_0_0_input)
# Calculate node 1 in the first hidden layer
node_0_1_input = (input_data*weights['node_0_1']).sum()
node_0_1_output = relu(node_0_1_input)
# Put node values into array: hidden_0_outputs
hidden_0_outputs = np.array([node_0_0_output, node_0_1_output])
# Calculate node 0 in the second hidden layer
node_1_0_input = (hidden_0_outputs*weights['node_1_0']).sum()
node_1_0_output = relu(node_1_0_input)
# Calculate node 1 in the second hidden layer
node_1_1_input = (hidden_0_outputs*weights['node_1_1']).sum()
node_1_1_output = relu(node_1_1_input)
# Put node values into array: hidden_1_outputs
hidden_1_outputs = np.array([node_1_0_output, node_1_1_output])
# Calculate model output: model_output
model_output = (hidden_1_outputs*weights['output']).sum()
# Return model_output
return(model_output)
output = predict_with_network(input_data)
print(output)
उत्पादन
364