केरस के साथ डीप लर्निंग - क्विक गाइड
डीप लर्निंग आर्टिफिशियल इंटेलिजेंस (एआई) के क्षेत्र में हाल के दिनों में एक चर्चा का विषय बन गया है। कई वर्षों तक हमने मशीनों को बुद्धिमत्ता प्रदान करने के लिए मशीन लर्निंग (ML) का उपयोग किया। हाल के दिनों में, पारंपरिक एमएल तकनीकों की तुलना में भविष्यवाणियों में अपने वर्चस्व के कारण गहरी शिक्षा अधिक लोकप्रिय हो गई है।
डीप लर्निंग का अनिवार्य रूप से एक विशाल मात्रा में डेटा के साथ एक कृत्रिम तंत्रिका नेटवर्क (एएनएन) को प्रशिक्षित करना है। गहरी शिक्षा में, नेटवर्क खुद से सीखता है और इस प्रकार सीखने के लिए विनम्र डेटा की आवश्यकता होती है। जबकि पारंपरिक मशीन लर्निंग अनिवार्य रूप से एल्गोरिदम का एक सेट है जो डेटा को पार्स करता है और उससे सीखता है। उन्होंने तब बुद्धिमान निर्णय लेने के लिए इस सीखने का इस्तेमाल किया।
अब, केरस में आना, यह एक उच्च-स्तरीय तंत्रिका नेटवर्क एपीआई है जो TensorFlow के शीर्ष पर चलता है - एंड-टू-एंड ओपन सोर्स मशीन लर्निंग प्लेटफॉर्म। Keras का उपयोग करना, आप आसानी से अपने बड़े डेटा पर प्रयोग करने के लिए जटिल ANN आर्किटेक्चर को परिभाषित करते हैं। Keras भी GPU का समर्थन करता है, जो डेटा और विकासशील मशीन लर्निंग मॉडल की भारी मात्रा में प्रसंस्करण के लिए आवश्यक हो जाता है।
इस ट्यूटोरियल में, आप गहरी तंत्रिका नेटवर्क के निर्माण में केरस के उपयोग को सीखेंगे। हम शिक्षण के लिए व्यावहारिक उदाहरणों को देखेंगे। हाथ में समस्या एक तंत्रिका नेटवर्क का उपयोग करते हुए हस्तलिखित अंकों को पहचानना है जिसे गहन सीखने के साथ प्रशिक्षित किया जाता है।
बस आपको और अधिक गहन सीखने के लिए उत्साहित करने के लिए, नीचे दी गई गहरी शिक्षा के बारे में Google प्रवृत्तियों का एक स्क्रीनशॉट है -
जैसा कि आप आरेख से देख सकते हैं, पिछले कई वर्षों में गहन शिक्षा में रुचि लगातार बढ़ रही है। कंप्यूटर दृष्टि, प्राकृतिक भाषा प्रसंस्करण, भाषण मान्यता, जैव सूचना विज्ञान, दवा डिजाइन, और इतने पर जैसे कई क्षेत्र हैं, जहां गहन शिक्षा सफलतापूर्वक लागू की गई है। यह ट्यूटोरियल आपको डीप लर्निंग पर जल्दी शुरू कर देगा।
तो पढ़ते रहिये!
जैसा कि परिचय में कहा गया है, गहन शिक्षण एक कृत्रिम तंत्रिका नेटवर्क को प्रशिक्षित करने की एक प्रक्रिया है जिसमें भारी मात्रा में डेटा होता है। एक बार प्रशिक्षित होने के बाद, नेटवर्क हमें अनदेखी डेटा पर भविष्यवाणियां करने में सक्षम होगा। इससे पहले कि मैं यह बताऊं कि गहरी सीख क्या है, हमें एक तंत्रिका नेटवर्क के प्रशिक्षण में उपयोग किए जाने वाले कुछ शब्दों के माध्यम से जल्दी जाना चाहिए।
तंत्रिका जाल
कृत्रिम तंत्रिका नेटवर्क का विचार हमारे मस्तिष्क में तंत्रिका नेटवर्क से लिया गया था। एक ठेठ तंत्रिका नेटवर्क में तीन परतें होती हैं - इनपुट, आउटपुट और छिपी हुई परत जैसा कि नीचे दी गई तस्वीर में दिखाया गया है।
इसे ए भी कहा जाता है shallowतंत्रिका नेटवर्क, क्योंकि इसमें केवल एक छिपी हुई परत होती है। आप अधिक जटिल वास्तुकला बनाने के लिए उपरोक्त वास्तुकला में अधिक छिपी हुई परतें जोड़ते हैं।
दीप नेटवर्क
निम्न आरेख एक गहरी नेटवर्क को दिखाता है जिसमें चार छिपी हुई परतें, एक इनपुट परत और एक आउटपुट परत होती है।
चूंकि नेटवर्क में छिपी हुई परतों की संख्या को जोड़ा जाता है, इसलिए आवश्यक संसाधनों के संदर्भ में इसका प्रशिक्षण अधिक जटिल हो जाता है और नेटवर्क को पूरी तरह से प्रशिक्षित करने में समय लगता है।
नेटवर्क प्रशिक्षण
नेटवर्क आर्किटेक्चर को परिभाषित करने के बाद, आप इसे कुछ प्रकार की भविष्यवाणियों के लिए प्रशिक्षित करते हैं। नेटवर्क को प्रशिक्षित करना नेटवर्क में प्रत्येक लिंक के लिए उचित भार खोजने की एक प्रक्रिया है। प्रशिक्षण के दौरान, डेटा इनपुट से आउटपुट परतों तक विभिन्न छिपी परतों के माध्यम से बहता है। चूंकि डेटा हमेशा इनपुट से आउटपुट तक एक दिशा में चलता है, इसलिए हम इस नेटवर्क को फीड-फॉरवर्ड नेटवर्क कहते हैं और हम डेटा के प्रसार को फॉरवर्ड प्रोपगेशन कहते हैं।
सक्रियण समारोह
प्रत्येक परत पर, हम इनपुट की भारित राशि की गणना करते हैं और इसे एक सक्रियण फ़ंक्शन को खिलाते हैं। सक्रियण फ़ंक्शन नेटवर्क में ग़ैर-मौजूदता लाता है। यह बस कुछ गणितीय फ़ंक्शन है जो आउटपुट को अलग करता है। सबसे अधिक इस्तेमाल किए जाने वाले कुछ सक्रियण कार्य सिग्मॉइड, हाइपरबोलिक, स्पर्शरेखा (टैन्ह), रेउलू और सॉफ्टबॉलैक्स हैं।
backpropagation
Backpropagation पर्यवेक्षित शिक्षण के लिए एक एल्गोरिथ्म है। Backpropagation में, त्रुटियां आउटपुट से इनपुट लेयर तक पीछे की ओर फैलती हैं। एक त्रुटि फ़ंक्शन को देखते हुए, हम प्रत्येक कनेक्शन पर सौंपे गए भार के संबंध में त्रुटि फ़ंक्शन के ग्रेडिएंट की गणना करते हैं। ग्रेडिएंट की गणना नेटवर्क के माध्यम से आगे बढ़ती है। वज़न की अंतिम परत के ग्रेडिएंट की गणना पहले की जाती है और वज़न की पहली परत के ग्रेडिएंट की गणना अंतिम होती है।
प्रत्येक परत पर, ग्रेडिएंट की आंशिक गणना को पिछली परत के लिए ढाल की गणना में पुन: उपयोग किया जाता है। इसे ग्रेडिएंट डिसेंट कहा जाता है।
इस प्रोजेक्ट-आधारित ट्यूटोरियल में आप एक फीड-फॉरवर्ड डीप न्यूरल नेटवर्क को परिभाषित करेंगे और इसे बैकप्रोपैजेशन और ग्रेडिएंट डिसेंट तकनीकों से प्रशिक्षित करेंगे। सौभाग्य से, केरेस हमें नेटवर्क आर्किटेक्चर को परिभाषित करने और ढाल मूल का उपयोग करके प्रशिक्षण के लिए सभी उच्च स्तरीय एपीआई प्रदान करता है। इसके बाद, आप सीखेंगे कि केरस में यह कैसे करना है।
हस्तलिखित अंक मान्यता प्रणाली
इस मिनी प्रोजेक्ट में, आप पहले वर्णित तकनीकों को लागू करेंगे। आप एक गहन शिक्षण तंत्रिका नेटवर्क बनाएंगे जिसे हस्तलिखित अंकों को पहचानने के लिए प्रशिक्षित किया जाएगा। किसी भी मशीन लर्निंग प्रोजेक्ट में, पहली चुनौती डेटा एकत्र करना है। विशेष रूप से, गहरे सीखने के नेटवर्क के लिए, आपको विनम्र डेटा की आवश्यकता होती है। सौभाग्य से, जिस समस्या को हम हल करने की कोशिश कर रहे हैं, उसके लिए किसी ने पहले ही प्रशिक्षण के लिए डेटासेट बना लिया है। इसे मनिस्ट कहा जाता है, जो किरस पुस्तकालयों के एक भाग के रूप में उपलब्ध है। डेटासेट में हस्तलिखित अंकों की कई 28x28 पिक्सेल छवियां होती हैं। आप अपने मॉडल को इस डेटासेट के प्रमुख भाग पर प्रशिक्षित करेंगे और शेष डेटा का उपयोग आपके प्रशिक्षित मॉडल को मान्य करने के लिए किया जाएगा।
परियोजना विवरण
mnistडेटासेट में हस्तलिखित अंकों की 70000 छवियां होती हैं। आपके संदर्भ के लिए कुछ नमूना चित्र यहां पुन: प्रस्तुत किए गए हैं
प्रत्येक छवि 28 x 28 पिक्सेल आकार की है जो इसे विभिन्न ग्रे स्केल स्तरों के कुल 768 पिक्सेल बनाती है। अधिकांश पिक्सेल काली छाया की ओर होते हैं जबकि उनमें से कुछ ही सफेद की ओर होते हैं। हम इन पिक्सेल के वितरण को एक सरणी या वेक्टर में डाल देंगे। उदाहरण के लिए, अंक 4 और 5 की एक विशिष्ट छवि के लिए पिक्सेल का वितरण नीचे दिए गए आंकड़े में दिखाया गया है।
प्रत्येक छवि 28 x 28 पिक्सेल आकार की है जो इसे विभिन्न ग्रे स्केल स्तरों के कुल 768 पिक्सेल बनाती है। अधिकांश पिक्सेल काली छाया की ओर होते हैं जबकि उनमें से कुछ ही सफेद की ओर होते हैं। हम इन पिक्सेल के वितरण को एक सरणी या वेक्टर में डाल देंगे। उदाहरण के लिए, अंक 4 और 5 की एक विशिष्ट छवि के लिए पिक्सेल का वितरण नीचे दिए गए आंकड़े में दिखाया गया है।
स्पष्ट रूप से, आप देख सकते हैं कि पिक्सेल का वितरण (विशेष रूप से सफेद स्वर की ओर झुकाव) भिन्न होता है, यह उन अंकों को अलग करता है जो वे प्रतिनिधित्व करते हैं। हम इसके इनपुट के रूप में अपने नेटवर्क को 784 पिक्सेल का वितरण वितरित करेंगे। नेटवर्क के आउटपुट में 0 और 9 के बीच एक अंक का प्रतिनिधित्व करने वाली 10 श्रेणियां शामिल होंगी।
हमारे नेटवर्क में 4 लेयर होंगे - एक इनपुट लेयर, एक आउटपुट लेयर और दो हिडन लेयर्स। प्रत्येक छिपी हुई परत में 512 नोड होंगे। प्रत्येक परत पूरी तरह से अगली परत से जुड़ी होती है। जब हम नेटवर्क को प्रशिक्षित करते हैं, तो हम प्रत्येक कनेक्शन के लिए वजन की गणना करेंगे। हम बैकप्रॉपैगैशन और ग्रेडिएंट डिसेंट को लागू करके नेटवर्क को प्रशिक्षित करते हैं जो हमने पहले चर्चा की थी।
इस पृष्ठभूमि के साथ, अब हम प्रोजेक्ट बनाना शुरू करते हैं।
प्रोजेक्ट की स्थापना
हम इस्तेमाल करेंगे Jupyter के माध्यम से Anacondaहमारे प्रोजेक्ट के लिए नाविक। जैसा कि हमारी परियोजना TensorFlow और Keras का उपयोग करती है, आपको एनाकोंडा सेटअप में स्थापित करने की आवश्यकता होगी। Tensorflow को स्थापित करने के लिए, अपनी कंसोल विंडो में निम्न कमांड चलाएँ:
>conda install -c anaconda tensorflow
करेस को स्थापित करने के लिए, निम्नलिखित कमांड का उपयोग करें -
>conda install -c anaconda keras
अब आप जुपिटर शुरू करने के लिए तैयार हैं।
ज्यूपिटर शुरू करना
जब आप एनाकोंडा नाविक शुरू करते हैं, तो आपको निम्न उद्घाटन स्क्रीन दिखाई देगी।
क्लिक ‘Jupyter’इसे शुरू करने के लिए। स्क्रीन आपके ड्राइव पर मौजूदा प्रोजेक्ट्स, यदि कोई हो, को दिखाएगी।
एक नई परियोजना शुरू करना
निम्नलिखित मेनू विकल्प का चयन करके एनाकोंडा में एक नया पायथन 3 परियोजना शुरू करें -
File | New Notebook | Python 3
मेनू चयन का स्क्रीनशॉट आपके त्वरित संदर्भ के लिए दिखाया गया है -
एक नई रिक्त परियोजना आपकी स्क्रीन पर दिखाई देगी जैसा कि नीचे दिखाया गया है -
करने के लिए प्रोजेक्ट का नाम बदलें DeepLearningDigitRecognition डिफ़ॉल्ट नाम पर क्लिक और संपादन करके “UntitledXX”।
हम पहले अपनी परियोजना में कोड द्वारा आवश्यक विभिन्न पुस्तकालयों को आयात करते हैं।
एरियर हैंडलिंग और प्लॉटिंग
ठेठ के रूप में, हम उपयोग करते हैं numpy सरणी से निपटने के लिए और matplotlibसाजिश रचने के लिए। इन पुस्तकालयों को निम्नलिखित का उपयोग करके हमारी परियोजना में आयात किया जाता हैimport बयान
import numpy as np
import matplotlib
import matplotlib.pyplot as plot
दमन चेतावनी
जैसा कि टेन्सरफ़्लो और केर दोनों संशोधित होते रहते हैं, यदि आप परियोजना में उनके उपयुक्त संस्करणों को सिंक नहीं करते हैं, तो रनटाइम में आपको बहुत सी चेतावनी त्रुटियां दिखाई देंगी। चूंकि वे सीखने से आपका ध्यान भटकाते हैं, इसलिए हम इस परियोजना की सभी चेतावनियों को दबाए रहेंगे। यह कोड की निम्नलिखित पंक्तियों के साथ किया जाता है -
# silent all warnings
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='3'
import warnings
warnings.filterwarnings('ignore')
from tensorflow.python.util import deprecation
deprecation._PRINT_DEPRECATION_WARNINGS = False
Keras
हम डेटा आयात करने के लिए Keras पुस्तकालयों का उपयोग करते हैं। हम उपयोग करेंगेmnistहस्तलिखित अंकों के लिए डेटासेट। हम निम्नलिखित विवरण का उपयोग करके आवश्यक पैकेज आयात करते हैं
from keras.datasets import mnist
हम अपने गहरे लर्निंग न्यूरल नेटवर्क को केरस पैकेज का उपयोग करते हुए परिभाषित करेंगे। हम आयात करते हैंSequential, Dense, Dropout तथा Activationनेटवर्क आर्किटेक्चर को परिभाषित करने के लिए पैकेज। हम प्रयोग करते हैंload_modelहमारे मॉडल को सहेजने और पुनर्प्राप्त करने के लिए पैकेज। हम भी उपयोग करते हैंnp_utilsकुछ उपयोगिताओं के लिए जो हमें अपनी परियोजना में चाहिए। ये आयात निम्नलिखित कार्यक्रम कथनों के साथ किए जाते हैं -
from keras.models import Sequential, load_model
from keras.layers.core import Dense, Dropout, Activation
from keras.utils import np_utils
जब आप इस कोड को चलाते हैं, तो आपको कंसोल पर एक संदेश दिखाई देगा जो कहता है कि केर बैकएंड पर TensorFlow का उपयोग करता है। इस स्तर पर स्क्रीनशॉट यहाँ दिखाया गया है -
अब, जैसा कि हमारे प्रोजेक्ट के लिए आवश्यक सभी आयात हैं, हम अपने डीप लर्निंग नेटवर्क के लिए वास्तुकला को परिभाषित करेंगे।
हमारा तंत्रिका नेटवर्क मॉडल परतों के एक रैखिक ढेर से मिलकर बनेगा। ऐसे मॉडल को परिभाषित करने के लिए, हम कॉल करते हैंSequential कार्य -
model = Sequential()
इनपुट परत
हम निम्नलिखित प्रोग्राम स्टेटमेंट का उपयोग करते हुए इनपुट परत को परिभाषित करते हैं, जो हमारे नेटवर्क की पहली परत है -
model.add(Dense(512, input_shape=(784,)))
यह 784 इनपुट नोड्स के साथ 512 नोड्स (न्यूरॉन्स) के साथ एक परत बनाता है। यह नीचे दिए गए चित्र में दर्शाया गया है -
ध्यान दें कि सभी इनपुट नोड्स लेयर 1 से पूरी तरह से जुड़े हुए हैं, अर्थात प्रत्येक इनपुट नोड लेयर 1 के सभी 512 नोड्स से जुड़ा है।
अगला, हमें लेयर 1 के आउटपुट के लिए सक्रियण फ़ंक्शन को जोड़ने की आवश्यकता है। हम अपने सक्रियण के रूप में ReLU का उपयोग करेंगे। सक्रियण फ़ंक्शन निम्नलिखित प्रोग्राम स्टेटमेंट का उपयोग करके जोड़ा जाता है -
model.add(Activation('relu'))
अगला, हम नीचे दिए गए कथन का उपयोग करके 20% का ड्रॉपआउट जोड़ते हैं। ड्रॉपआउट एक तकनीक है जिसका उपयोग मॉडल को ओवरफिटिंग से बचाने के लिए किया जाता है।
model.add(Dropout(0.2))
इस बिंदु पर, हमारी इनपुट परत पूरी तरह से परिभाषित है। अगला, हम एक छिपी हुई परत जोड़ देंगे।
छिपी हुई परत
हमारी छिपी हुई परत में 512 नोड होंगे। छिपी हुई परत का इनपुट हमारे पहले से परिभाषित इनपुट परत से आता है। सभी नोड्स पहले के मामले की तरह पूरी तरह से जुड़े हुए हैं। छिपी हुई परत का आउटपुट नेटवर्क में अगली परत पर जाएगा, जो कि हमारी अंतिम और आउटपुट परत होगी। हम पिछली परत और 20% के ड्रॉपआउट के समान ही ReLU सक्रियण का उपयोग करेंगे। इस परत को जोड़ने के लिए कोड यहाँ दिया गया है -
model.add(Dense(512))
model.add(Activation('relu'))
model.add(Dropout(0.2))
इस स्तर पर नेटवर्क की कल्पना इस प्रकार की जा सकती है -
अगला, हम अपने नेटवर्क में अंतिम परत जोड़ देंगे, जो आउटपुट परत है। ध्यान दें कि आप यहां जिस कोड का उपयोग कर रहे हैं, उसके समान कोड का उपयोग करके किसी भी छिपी हुई परतों को जोड़ सकते हैं। अधिक परतों को जोड़ने से प्रशिक्षण के लिए नेटवर्क जटिल हो जाएगा; हालांकि, कई मामलों में बेहतर परिणाम का एक निश्चित लाभ देते हुए हालांकि सभी नहीं।
आउटपुट लेयर
आउटपुट लेयर में सिर्फ 10 नोड्स होते हैं क्योंकि हम दिए गए चित्रों को 10 अलग-अलग अंकों में वर्गीकृत करना चाहते हैं। हम निम्नलिखित कथन का उपयोग करते हुए इस परत को जोड़ते हैं -
model.add(Dense(10))
जैसा कि हम आउटपुट को 10 अलग-अलग इकाइयों में वर्गीकृत करना चाहते हैं, हम सॉफ्टमैक्स सक्रियण का उपयोग करते हैं। ReLU के मामले में, आउटपुट बाइनरी है। हम निम्नलिखित कथन का उपयोग करके सक्रियण जोड़ते हैं -
model.add(Activation('softmax'))
इस बिंदु पर, हमारे नेटवर्क की कल्पना की जा सकती है जैसा कि नीचे चित्र में दिखाया गया है -
इस बिंदु पर, हमारे नेटवर्क मॉडल को सॉफ्टवेयर में पूरी तरह से परिभाषित किया गया है। कोड सेल चलाएं और अगर कोई त्रुटि नहीं है, तो आपको स्क्रीन पर एक पुष्टिकरण संदेश मिलेगा जैसा कि नीचे स्क्रीनशॉट में दिखाया गया है -
अगला, हमें मॉडल को संकलित करने की आवश्यकता है।
संकलन एक एकल विधि कॉल का उपयोग करके किया जाता है compile।
model.compile(loss='categorical_crossentropy', metrics=['accuracy'], optimizer='adam')
compileविधि कई मापदंडों की आवश्यकता है। नुकसान पैरामीटर टाइप करने के लिए निर्दिष्ट है'categorical_crossentropy'। मेट्रिक्स पैरामीटर सेट किया गया है'accuracy' और अंत में हम उपयोग करते हैं adamनेटवर्क के प्रशिक्षण के लिए अनुकूलक। इस स्तर पर आउटपुट नीचे दिखाया गया है -
अब, हम अपने नेटवर्क के डेटा में फीड करने के लिए तैयार हैं।
डेटा लोड हो रहा है
जैसा कि पहले कहा गया था, हम इसका इस्तेमाल करेंगे mnistकेरस द्वारा प्रदत्त डेटासेट। जब हम अपने सिस्टम में डेटा लोड करते हैं, तो हम इसे प्रशिक्षण और परीक्षण डेटा में विभाजित करेंगे। कॉल करके डेटा लोड किया जाता हैload_data विधि इस प्रकार है -
(X_train, y_train), (X_test, y_test) = mnist.load_data()
इस स्तर पर आउटपुट निम्न की तरह दिखता है -
अब, हम लोड किए गए डेटासेट की संरचना सीखेंगे।
हमें जो डेटा प्रदान किया जाता है, वह 28 x 28 पिक्सेल आकार की ग्राफिक छवियां होती हैं, जिनमें से प्रत्येक में 0 और 9 के बीच एक एकल अंक होता है। हम कंसोल पर पहले दस छवियों को प्रदर्शित करेंगे। ऐसा करने के लिए कोड नीचे दिया गया है -
# printing first 10 images
for i in range(10):
plot.subplot(3,5,i+1)
plot.tight_layout()
plot.imshow(X_train[i], cmap='gray', interpolation='none')
plot.title("Digit: {}".format(y_train[i]))
plot.xticks([])
plot.yticks([])
10 गिनती के पुनरावृत्त लूप में, हम प्रत्येक पुनरावृत्ति पर एक सबप्लॉट बनाते हैं और इससे एक छवि दिखाते हैं X_trainइसमें वेक्टर हम प्रत्येक छवि को इसी से शीर्षक देते हैंy_trainवेक्टर। ध्यान दें किy_train वेक्टर में इसी छवि के लिए वास्तविक मान शामिल हैं X_trainवेक्टर। हम दो विधियों को कॉल करके x और y कुल्हाड़ियों के निशान हटाते हैंxticks तथा yticksअशक्त तर्क के साथ। जब आप कोड चलाते हैं, तो आपको निम्न आउटपुट दिखाई देंगे -
अगला, हम इसे अपने नेटवर्क में खिलाने के लिए डेटा तैयार करेंगे।
इससे पहले कि हम अपने नेटवर्क को डेटा फ़ीड करें, इसे नेटवर्क द्वारा आवश्यक प्रारूप में परिवर्तित किया जाना चाहिए। इसे नेटवर्क के लिए डेटा तैयार करना कहा जाता है। इसमें बहु-आयामी इनपुट को एकल-आयाम वेक्टर में परिवर्तित करना और डेटा बिंदुओं को सामान्य बनाना शामिल है।
रिचार्जिंग इनपुट वेक्टर
हमारे डेटासेट में चित्र 28 x 28 पिक्सेल के हैं। इसे हमारे नेटवर्क में फीड करने के लिए 28 * 28 = 784 आकार के एकल आयामी वेक्टर में परिवर्तित किया जाना चाहिए। हम कॉल करके ऐसा करते हैंreshape वेक्टर पर विधि।
X_train = X_train.reshape(60000, 784)
X_test = X_test.reshape(10000, 784)
अब, हमारे प्रशिक्षण वेक्टर में 60000 डेटा बिंदु शामिल होंगे, प्रत्येक में 784 आकार के एकल आयाम वेक्टर शामिल होंगे। इसी प्रकार, हमारे परीक्षण वेक्टर में 784 आकार के एकल-आयाम वेक्टर के 10000 डेटा बिंदु शामिल होंगे।
डेटा को सामान्य कर रहा है
इनपुट वेक्टर में मौजूद डेटा में वर्तमान में 0 और 255 के बीच असतत मान है - ग्रे स्केल स्तर। 0 और 1 के बीच इन पिक्सेल मूल्यों को सामान्य करने से प्रशिक्षण को गति देने में मदद मिलती है। जैसा कि हम स्टोकेस्टिक ग्रेडिएंट वंश का उपयोग करने जा रहे हैं, डेटा को सामान्य करने से स्थानीय ऑप्टिमा में फंसने की संभावना को कम करने में भी मदद मिलेगी।
डेटा को सामान्य करने के लिए, हम इसे फ्लोट प्रकार के रूप में दर्शाते हैं और इसे 255 से विभाजित करते हैं जैसा कि निम्नलिखित कोड स्निपेट में दिखाया गया है -
X_train = X_train.astype('float32')
X_test = X_test.astype('float32')
X_train /= 255
X_test /= 255
आइए अब देखते हैं कि सामान्यीकृत डेटा कैसा दिखता है।
सामान्यीकृत डेटा की जांच करना
सामान्यीकृत डेटा को देखने के लिए, हम हिस्टोग्राम फ़ंक्शन को यहां दिखाए गए अनुसार कहेंगे -
plot.hist(X_train[0])
plot.title("Digit: {}".format(y_train[0]))
यहां, हम पहले तत्व के हिस्टोग्राम की साजिश रचते हैं X_trainवेक्टर। हम इस डेटा बिंदु द्वारा दर्शाए गए अंकों को भी प्रिंट करते हैं। उपरोक्त कोड चलाने का आउटपुट यहाँ दिखाया गया है -
आपको शून्य के करीब मान वाले बिंदुओं का एक मोटा घनत्व दिखाई देगा। ये छवि में काले बिंदु बिंदु हैं, जो स्पष्ट रूप से छवि का प्रमुख हिस्सा है। ग्रे स्केल के बाकी बिंदु, जो सफेद रंग के करीब हैं, अंक का प्रतिनिधित्व करते हैं। आप किसी अन्य अंक के लिए पिक्सेल के वितरण की जांच कर सकते हैं। नीचे दिया गया कोड प्रशिक्षण डेटासेट में 2 के सूचकांक में एक अंक के हिस्टोग्राम को प्रिंट करता है।
plot.hist(X_train[2])
plot.title("Digit: {}".format(y_train[2])
उपरोक्त कोड चलाने का आउटपुट नीचे दिखाया गया है -
उपरोक्त दो आंकड़ों की तुलना करने पर, आप देखेंगे कि दो चित्रों में सफेद पिक्सेल का वितरण उपरोक्त दो चित्रों में एक अलग अंक - "5" और "4" का प्रतिनिधित्व दर्शाता है।
अगला, हम अपने पूर्ण प्रशिक्षण डेटासेट में डेटा के वितरण की जांच करेंगे।
डेटा वितरण की जांच करना
अपने मशीन लर्निंग मॉडल को हमारे डेटासेट पर प्रशिक्षित करने से पहले, हमें अपने डेटासेट में अद्वितीय अंकों के वितरण को जानना चाहिए। हमारी छवियां 0 से 9. तक 10 अलग-अलग अंकों का प्रतिनिधित्व करती हैं। हम अपने डेटासेट में अंकों की संख्या 0, 1, आदि जानना चाहते हैं। हम इस जानकारी का उपयोग करके प्राप्त कर सकते हैंunique Numpy की विधि।
अद्वितीय मानों की संख्या और प्रत्येक की घटनाओं की संख्या को मुद्रित करने के लिए निम्न आदेश का उपयोग करें
print(np.unique(y_train, return_counts=True))
जब आप उपरोक्त कमांड चलाते हैं, तो आपको निम्न आउटपुट दिखाई देंगे -
(array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8), array([5923, 6742, 5958, 6131, 5842, 5421, 5918, 6265, 5851, 5949]))
यह दर्शाता है कि १० अलग-अलग मूल्य हैं - ० ९ के माध्यम से। ५ ९ २३ अंक हैं ० अंक के ०, ६ there४२ होने वाले अंक १ हैं, और इसी तरह। आउटपुट का स्क्रीनशॉट यहाँ दिखाया गया है -
डेटा तैयार करने के अंतिम चरण के रूप में, हमें अपने डेटा को एनकोड करना होगा।
डेटा एन्कोडिंग
हमारे डेटासेट में हमारी दस श्रेणियां हैं। इस प्रकार हम इन दस श्रेणियों में एक-गर्म एन्कोडिंग का उपयोग करके अपने उत्पादन को कूटबद्ध करेंगे। हम एन्कोडिंग प्रदर्शन करने के लिए Numpy उपयोगिताओं की to_categorial विधि का उपयोग करते हैं। आउटपुट डेटा एन्कोडेड होने के बाद, प्रत्येक डेटा पॉइंट को 10. के एकल आयामी वेक्टर में परिवर्तित किया जाएगा। उदाहरण के लिए, अंक 5 को अब [0,0,0,0,0,1,0,0,0 के रूप में दर्शाया जाएगा। , 0]।
निम्नलिखित कोड का उपयोग करके डेटा को एनकोड करें -
n_classes = 10
Y_train = np_utils.to_categorical(y_train, n_classes)
आप श्रेणीबद्ध Y_train वेक्टर के पहले 5 तत्वों को प्रिंट करके एन्कोडिंग के परिणाम की जांच कर सकते हैं।
पहले 5 वैक्टर प्रिंट करने के लिए निम्नलिखित कोड का उपयोग करें -
for i in range(5):
print (Y_train[i])
आप निम्न आउटपुट देखेंगे -
[0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
[0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
[0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]
पहला तत्व अंक 5 का प्रतिनिधित्व करता है, दूसरा अंक 0 का प्रतिनिधित्व करता है, और इसी तरह।
अंत में, आपको परीक्षण डेटा को भी वर्गीकृत करना होगा, जो निम्नलिखित कथन का उपयोग करके किया गया है -
Y_test = np_utils.to_categorical(y_test, n_classes)
इस स्तर पर, आपका डेटा नेटवर्क में फीड करने के लिए पूरी तरह से तैयार है।
अगला, सबसे महत्वपूर्ण हिस्सा है और यह हमारे नेटवर्क मॉडल को प्रशिक्षित कर रहा है।
मॉडल प्रशिक्षण एक एकल विधि कॉल में किया जाता है जिसे फिट कहा जाता है जो नीचे दिए गए कोड में देखे गए कुछ मापदंडों को लेता है -
history = model.fit(X_train, Y_train,
batch_size=128, epochs=20,
verbose=2,
validation_data=(X_test, Y_test)))
फिट विधि के पहले दो पैरामीटर प्रशिक्षण डेटासेट की सुविधाओं और आउटपुट को निर्दिष्ट करते हैं।
epochs20 पर सेट है; हम मानते हैं कि प्रशिक्षण अधिकतम 20 युगों - पुनरावृत्तियों में परिवर्तित होगा। प्रशिक्षित मॉडल अंतिम पैरामीटर में निर्दिष्ट परीक्षण डेटा पर मान्य है।
उपरोक्त कमांड चलाने का आंशिक आउटपुट यहाँ दिखाया गया है -
Train on 60000 samples, validate on 10000 samples
Epoch 1/20
- 9s - loss: 0.2488 - acc: 0.9252 - val_loss: 0.1059 - val_acc: 0.9665
Epoch 2/20
- 9s - loss: 0.1004 - acc: 0.9688 - val_loss: 0.0850 - val_acc: 0.9715
Epoch 3/20
- 9s - loss: 0.0723 - acc: 0.9773 - val_loss: 0.0717 - val_acc: 0.9765
Epoch 4/20
- 9s - loss: 0.0532 - acc: 0.9826 - val_loss: 0.0665 - val_acc: 0.9795
Epoch 5/20
- 9s - loss: 0.0457 - acc: 0.9856 - val_loss: 0.0695 - val_acc: 0.9792
आउटपुट का स्क्रीनशॉट आपके त्वरित संदर्भ के लिए नीचे दिया गया है -
अब, जैसा कि मॉडल हमारे प्रशिक्षण डेटा पर प्रशिक्षित है, हम इसके प्रदर्शन का मूल्यांकन करेंगे।
मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हम कॉल करते हैं evaluate विधि इस प्रकार है -
loss_and_metrics = model.evaluate(X_test, Y_test, verbose=2)
मॉडल के प्रदर्शन का मूल्यांकन करने के लिए, हम कॉल करते हैं evaluate विधि इस प्रकार है -
loss_and_metrics = model.evaluate(X_test, Y_test, verbose=2)
हम निम्नलिखित दो कथनों का उपयोग करते हुए नुकसान और सटीकता को प्रिंट करेंगे -
print("Test Loss", loss_and_metrics[0])
print("Test Accuracy", loss_and_metrics[1])
जब आप उपरोक्त कथन चलाते हैं, तो आपको निम्न आउटपुट दिखाई देंगे -
Test Loss 0.08041584826191042
Test Accuracy 0.9837
यह 98% की एक परीक्षण सटीकता दिखाता है, जो हमें स्वीकार्य होना चाहिए। हमारे लिए इसका क्या मतलब है कि 2% मामलों में, हस्तलिखित अंकों को सही तरीके से वर्गीकृत नहीं किया जाएगा। हम परीक्षण डेटा पर मॉडल कैसे प्रदर्शन करते हैं, यह देखने के लिए सटीकता और हानि मैट्रिक्स भी प्लॉट करेंगे।
सटीक मेट्रिक्स प्लॉटिंग
हम रिकॉर्डेड का उपयोग करते हैं historyसटीकता मैट्रिक्स के एक भूखंड को प्राप्त करने के लिए हमारे प्रशिक्षण के दौरान। निम्नलिखित कोड प्रत्येक युग पर सटीकता की साजिश करेगा। हम प्रशिक्षण डेटा सटीकता ("एसीसी") और प्लॉटिंग के लिए सत्यापन डेटा सटीकता ("वैल_एसीसी") उठाते हैं।
plot.subplot(2,1,1)
plot.plot(history.history['acc'])
plot.plot(history.history['val_acc'])
plot.title('model accuracy')
plot.ylabel('accuracy')
plot.xlabel('epoch')
plot.legend(['train', 'test'], loc='lower right')
आउटपुट प्लॉट नीचे दिखाया गया है -
जैसा कि आप आरेख में देख सकते हैं, पहले दो युगों में सटीकता तेजी से बढ़ जाती है, यह दर्शाता है कि नेटवर्क तेजी से सीख रहा है। बाद में, वक्र यह दर्शाता है कि मॉडल को आगे प्रशिक्षित करने के लिए बहुत अधिक युगों की आवश्यकता नहीं है। आमतौर पर, यदि प्रशिक्षण डेटा सटीकता ("एसीसी") में सुधार होता रहता है, जबकि सत्यापन डेटा सटीकता ("वैल_एसीसी") खराब हो जाती है, तो आप ओवरफिटिंग का सामना कर रहे हैं। यह इंगित करता है कि मॉडल डेटा को याद रखना शुरू कर रहा है।
हम अपने मॉडल के प्रदर्शन की जांच करने के लिए लॉस मेट्रिक्स की साजिश भी करेंगे।
प्लॉटिंग लॉस मेट्रिक्स
फिर, हम दोनों प्रशिक्षण ("नुकसान") और परीक्षण ("val_loss") डेटा पर नुकसान की साजिश करते हैं। यह निम्नलिखित कोड का उपयोग करके किया जाता है -
plot.subplot(2,1,2)
plot.plot(history.history['loss'])
plot.plot(history.history['val_loss'])
plot.title('model loss')
plot.ylabel('loss')
plot.xlabel('epoch')
plot.legend(['train', 'test'], loc='upper right')
इस कोड का आउटपुट नीचे दिखाया गया है -
जैसा कि आप आरेख में देख सकते हैं, पहले दो युगों के लिए प्रशिक्षण सेट पर नुकसान तेजी से घटता है। परीक्षण सेट के लिए, नुकसान उसी दर से कम नहीं होता है जितना कि प्रशिक्षण सेट, लेकिन कई युगों के लिए लगभग सपाट रहता है। इसका मतलब है कि हमारा मॉडल डेटा को अनदेखा करने के लिए अच्छी तरह से सामान्यीकरण कर रहा है।
अब, हम अपने परीक्षण मॉडल के अंको का अनुमान लगाने के लिए अपने प्रशिक्षित मॉडल का उपयोग करेंगे।
एक अनदेखी डेटा में अंकों की भविष्यवाणी करना बहुत आसान है। आपको बस कॉल करने की आवश्यकता हैpredict_classes की विधि model अपने अज्ञात डेटा बिंदुओं से मिलकर वेक्टर में इसे पास करके।
predictions = model.predict_classes(X_test)
विधि कॉल एक वेक्टर में भविष्यवाणियों को लौटाता है जिसे 0 और 1 के लिए वास्तविक मूल्यों के खिलाफ परीक्षण किया जा सकता है। यह निम्नलिखित दो कथनों का उपयोग करके किया जाता है -
correct_predictions = np.nonzero(predictions == y_test)[0]
incorrect_predictions = np.nonzero(predictions != y_test)[0]
अंत में, हम निम्नलिखित दो प्रोग्राम स्टेटमेंट्स का उपयोग करके सही और गलत भविष्यवाणियों की गिनती प्रिंट करेंगे -
print(len(correct_predictions)," classified correctly")
print(len(incorrect_predictions)," classified incorrectly")
जब आप कोड चलाते हैं, तो आपको निम्न आउटपुट मिलेगा -
9837 classified correctly
163 classified incorrectly
अब, जैसा कि आपने संतोषजनक ढंग से मॉडल को प्रशिक्षित किया है, हम इसे भविष्य में उपयोग के लिए बचाएंगे।
हम अपने स्थानीय ड्राइव में प्रशिक्षित मॉडल को हमारे वर्तमान कार्य निर्देशिका में मॉडल फ़ोल्डर में सहेजेंगे। मॉडल को बचाने के लिए, निम्न कोड चलाएँ -
directory = "./models/"
name = 'handwrittendigitrecognition.h5'
path = os.path.join(save_dir, name)
model.save(path)
print('Saved trained model at %s ' % path)
कोड चलाने के बाद आउटपुट नीचे दिखाया गया है -
अब, जैसा कि आपने एक प्रशिक्षित मॉडल सहेजा है, आप अपने अज्ञात डेटा को संसाधित करने के लिए बाद में इसका उपयोग कर सकते हैं।
अनदेखी डेटा की भविष्यवाणी करने के लिए, आपको पहले प्रशिक्षित मॉडल को मेमोरी में लोड करना होगा। यह निम्नलिखित कमांड का उपयोग करके किया जाता है -
model = load_model ('./models/handwrittendigitrecognition.h5')
ध्यान दें कि हम केवल .h5 फ़ाइल को मेमोरी में लोड कर रहे हैं। यह प्रत्येक परत को सौंपे गए भार के साथ-साथ पूरे तंत्रिका नेटवर्क को मेमोरी में सेट करता है।
अब, अनदेखी डेटा पर अपनी भविष्यवाणियां करने के लिए, डेटा लोड करें, इसे मेमोरी में एक या अधिक आइटम होने दें। हमारे मॉडल की इनपुट आवश्यकताओं को पूरा करने के लिए डेटा को रोकें जैसा कि आपने अपने प्रशिक्षण और ऊपर दिए गए डेटा का परीक्षण किया था। प्रीप्रोसेसिंग के बाद, इसे अपने नेटवर्क पर फ़ीड करें। मॉडल अपनी भविष्यवाणी को आउटपुट करेगा।
केरस गहरे तंत्रिका नेटवर्क बनाने के लिए एक उच्च स्तरीय एपीआई प्रदान करता है। इस ट्यूटोरियल में, आपने एक गहन तंत्रिका नेटवर्क बनाना सीखा जो हस्तलिखित पाठ में अंकों को खोजने के लिए प्रशिक्षित किया गया था। इस उद्देश्य के लिए एक बहु-परत नेटवर्क बनाया गया था। केरस आपको प्रत्येक परत पर अपनी पसंद के सक्रियण फ़ंक्शन को परिभाषित करने की अनुमति देता है। ढाल वंश का उपयोग करते हुए, नेटवर्क को प्रशिक्षण डेटा पर प्रशिक्षित किया गया था। परीक्षण डेटा पर अनदेखी डेटा की भविष्यवाणी करने में प्रशिक्षित नेटवर्क की सटीकता का परीक्षण किया गया था। आपने सटीकता और त्रुटि मीट्रिक प्लॉट करना सीख लिया है। नेटवर्क पूरी तरह से प्रशिक्षित होने के बाद, आपने भविष्य के उपयोग के लिए नेटवर्क मॉडल को सहेजा है।