मशीन लर्निंग - त्वरित गाइड
आज के आर्टिफिशियल इंटेलिजेंस (एआई) ने ब्लॉकचेन और क्वांटम कंप्यूटिंग के प्रचार को पार कर लिया है। यह इस तथ्य के कारण है कि विशाल कंप्यूटिंग संसाधन आम आदमी के लिए आसानी से उपलब्ध हैं। डेवलपर्स अब नए मशीन लर्निंग मॉडल बनाने और बेहतर प्रदर्शन और परिणामों के लिए मौजूदा मॉडल को फिर से प्रशिक्षित करने के लिए इसका लाभ उठाते हैं। उच्च प्रदर्शन कम्प्यूटिंग (एचपीसी) की आसान उपलब्धता के कारण मशीन लर्निंग कौशल वाले आईटी पेशेवरों की अचानक मांग में वृद्धि हुई है।
इस ट्यूटोरियल में, आप विस्तार से जानेंगे -
मशीन लर्निंग का क्रुज़ क्या है?
मशीन लर्निंग में विभिन्न प्रकार क्या हैं?
मशीन लर्निंग मॉडल विकसित करने के लिए अलग-अलग एल्गोरिदम उपलब्ध हैं?
इन मॉडलों को विकसित करने के लिए कौन से उपकरण उपलब्ध हैं?
प्रोग्रामिंग भाषा विकल्प क्या हैं?
प्लेटफ़ॉर्म लर्निंग अनुप्रयोगों के विकास और तैनाती के लिए कौन से प्लेटफ़ॉर्म का समर्थन करते हैं?
क्या आईडीई (एकीकृत विकास पर्यावरण) उपलब्ध हैं?
इस महत्वपूर्ण क्षेत्र में अपने कौशल को जल्दी से कैसे उन्नत करें?
जब आप फेसबुक फोटो में किसी चेहरे को टैग करते हैं, तो यह AI है जो पर्दे के पीछे चल रहा है और एक तस्वीर में चेहरे की पहचान कर रहा है। फेस टैगिंग अब कई अनुप्रयोगों में सर्वव्यापी है जो मानव चेहरे के साथ चित्र प्रदर्शित करते हैं। सिर्फ इंसानों का चेहरा क्यों? ऐसे कई अनुप्रयोग हैं जो बिल्लियों, कुत्तों, बोतलों, कारों आदि जैसी वस्तुओं का पता लगाते हैं। हमारे पास हमारी सड़कों पर चलने वाली स्वायत्त कारें हैं जो कार को चलाने के लिए वास्तविक समय में वस्तुओं का पता लगाती हैं। जब आप यात्रा करते हैं, तो आप Google का उपयोग करते हैंDirectionsवास्तविक समय ट्रैफ़िक स्थितियों को जानने के लिए और उस समय Google द्वारा सुझाए गए सर्वोत्तम पथ का अनुसरण करें। यह वास्तविक समय में ऑब्जेक्ट डिटेक्शन तकनीक का एक और कार्यान्वयन है।
आइए हम Google के उदाहरण पर विचार करें Translateवह अनुप्रयोग जो हम आमतौर पर विदेशी देशों का दौरा करते समय उपयोग करते हैं। आपके मोबाइल पर Google का ऑनलाइन अनुवादक ऐप आपको स्थानीय लोगों से एक ऐसी भाषा बोलने में मदद करता है जो आपके लिए विदेशी है।
एआई के कई अनुप्रयोग हैं जो हम आज व्यावहारिक रूप से उपयोग करते हैं। वास्तव में, हम में से प्रत्येक अपने जीवन के कई हिस्सों में एआई का उपयोग करते हैं, यहां तक कि हमारे ज्ञान के बिना भी। आज का एआई एक महान सटीकता और गति के साथ अत्यंत जटिल कार्य कर सकता है। आइए एक एआई एप्लिकेशन में उन क्षमताओं को समझने के लिए जटिल कार्य के उदाहरण पर चर्चा करें जो आप अपने ग्राहकों के लिए आज विकसित कर रहे हैं।
उदाहरण
हम सभी Google का उपयोग करते हैं Directionsशहर में कहीं भी हमारी यात्रा के दौरान दैनिक आवागमन के लिए या यहां तक कि अंतर-शहर यात्रा के लिए भी। Google निर्देश एप्लिकेशन उस समय हमारे गंतव्य के लिए सबसे तेज़ पथ सुझाता है। जब हम इस रास्ते का अनुसरण करते हैं, तो हमने देखा है कि Google अपने सुझावों में लगभग 100% सही है और हम यात्रा पर अपना मूल्यवान समय बचाते हैं।
आप इस तरह के अनुप्रयोग को विकसित करने में शामिल जटिलता की कल्पना कर सकते हैं कि आपके गंतव्य के लिए कई रास्ते हैं और आपको प्रत्येक ऐसे पथ के लिए यात्रा के समय का अनुमान देने के लिए आवेदन को हर संभव पथ में ट्रैफ़िक स्थिति को निर्धारित करना होगा। इसके अलावा, इस तथ्य पर विचार करें कि Google दिशाएं संपूर्ण ग्लोब को कवर करती हैं। निस्संदेह, एआई और मशीन लर्निंग तकनीक के बहुत सारे ऐसे अनुप्रयोगों के हुड के तहत उपयोग में हैं।
इस तरह के अनुप्रयोगों के विकास की निरंतर मांग को देखते हुए, अब आप इस बात की सराहना करेंगे कि एआई कौशल वाले आईटी पेशेवरों की अचानक मांग क्यों है।
हमारे अगले अध्याय में, हम सीखेंगे कि एआई कार्यक्रमों को विकसित करने में क्या लगता है।
एआई की यात्रा 1950 में शुरू हुई जब कंप्यूटिंग शक्ति आज क्या है इसका एक अंश था। एआई की शुरुआत मशीन द्वारा एक अंदाज में की गई भविष्यवाणी के साथ हुई थी, जो एक सांख्यिकीविद अपने कैलकुलेटर का उपयोग करके भविष्यवाणियां करता है। इस प्रकार, प्रारंभिक संपूर्ण AI विकास मुख्य रूप से सांख्यिकीय तकनीकों पर आधारित था।
इस अध्याय में, आइए हम इन सांख्यिकीय तकनीकों के बारे में विस्तार से चर्चा करें।
सांख्यिकीय तकनीक
आज के एआई अनुप्रयोगों का विकास सदियों पुरानी पारंपरिक सांख्यिकीय तकनीकों का उपयोग करने के साथ शुरू हुआ। भविष्य के मूल्य का अनुमान लगाने के लिए आपने स्कूलों में स्ट्रेट-लाइन प्रक्षेप का उपयोग किया होगा। कई अन्य ऐसी सांख्यिकीय तकनीकें हैं जो तथाकथित एआई कार्यक्रमों को विकसित करने में सफलतापूर्वक लागू होती हैं। हम कहते हैं "तथाकथित" क्योंकि हमारे पास आज जो एआई कार्यक्रम हैं वे बहुत अधिक जटिल हैं और प्रारंभिक एआई कार्यक्रमों द्वारा उपयोग की जाने वाली सांख्यिकीय तकनीकों से कहीं अधिक तकनीकों का उपयोग करते हैं।
सांख्यिकीय तकनीकों के कुछ उदाहरण जो उन दिनों में एआई अनुप्रयोगों को विकसित करने के लिए उपयोग किए जाते हैं और अभी भी प्रचलन में हैं -
- Regression
- Classification
- Clustering
- संभाव्यता सिद्धांत
- निर्णय के पेड़
यहां हमने केवल कुछ प्राथमिक तकनीकों को सूचीबद्ध किया है जो एआई पर शुरू करने के लिए पर्याप्त हैं जो आपको एआई की मांग की विशालता से डराए बिना। यदि आप सीमित डेटा के आधार पर AI एप्लिकेशन विकसित कर रहे हैं, तो आप इन सांख्यिकीय तकनीकों का उपयोग कर रहे होंगे।
हालांकि, आज डेटा प्रचुर मात्रा में है। इस तरह के विशाल डेटा का विश्लेषण करने के लिए, जिनके लिए हमारे पास सांख्यिकीय तकनीक है, बहुत मदद नहीं करते हैं क्योंकि उनकी अपनी कुछ सीमाएँ हैं। अधिक उन्नत विधियाँ जैसे गहरी शिक्षा इसलिए कई जटिल समस्याओं को हल करने के लिए विकसित की जाती हैं।
जैसा कि हम इस ट्यूटोरियल में आगे बढ़ते हैं, हम समझेंगे कि मशीन लर्निंग क्या है और इसका उपयोग ऐसे जटिल एआई अनुप्रयोगों को विकसित करने के लिए कैसे किया जाता है।
निम्नलिखित आंकड़े पर विचार करें जो वर्ग फुट में घर के आकार बनाम इसके आकार का एक भूखंड दिखाता है।
एक्सवाई प्लॉट पर विभिन्न डेटा बिंदुओं की साजिश रचने के बाद, हम किसी भी अन्य घर के आकार के लिए अपनी भविष्यवाणियां करने के लिए एक सबसे अच्छी रेखा बनाते हैं। आप मशीन को ज्ञात डेटा फ़ीड करेंगे और इसे सबसे अच्छी फिट लाइन खोजने के लिए कहेंगे। एक बार मशीन द्वारा सबसे अच्छी फिट लाइन मिलने के बाद, आप एक ज्ञात घर के आकार में खिलाकर इसकी उपयुक्तता का परीक्षण करेंगे, अर्थात उपरोक्त वक्र में Y- मान। मशीन अब अनुमानित एक्स-मूल्य, यानी घर की अपेक्षित कीमत वापस कर देगी। एक घर की कीमत का पता लगाने के लिए आरेख को एक्सट्रपलेशन किया जा सकता है जो 3000 वर्ग फुट या उससे भी बड़ा है। इसे सांख्यिकी में प्रतिगमन कहा जाता है। विशेष रूप से, इस तरह के प्रतिगमन को रैखिक प्रतिगमन कहा जाता है क्योंकि एक्सएंडवाई डेटा बिंदुओं के बीच संबंध रैखिक है।
कई मामलों में, X & Y डेटा बिंदुओं के बीच संबंध एक सीधी रेखा नहीं हो सकता है, और यह एक जटिल समीकरण के साथ एक वक्र हो सकता है। आपका कार्य अब सर्वश्रेष्ठ फिटिंग वक्र का पता लगाना होगा जिसे भविष्य के मूल्यों की भविष्यवाणी करने के लिए अतिरिक्त रूप से तैयार किया जा सकता है। ऐसा ही एक आवेदन प्लॉट नीचे दिए गए आंकड़े में दिखाया गया है।
स्रोत:
https://upload.wikimedia.org/wikipedia/commons/c/c9/
आप यहां सबसे अच्छे फिट वक्र के समीकरण का पता लगाने के लिए सांख्यिकीय अनुकूलन तकनीकों का उपयोग करेंगे। और यह वही है जो मशीन लर्निंग के बारे में है। आप अपनी समस्या का सबसे अच्छा समाधान खोजने के लिए ज्ञात अनुकूलन तकनीकों का उपयोग करते हैं।
इसके बाद, मशीन लर्निंग की विभिन्न श्रेणियों को देखते हैं।
मशीन लर्निंग को मोटे तौर पर निम्नलिखित शीर्षकों के तहत वर्गीकृत किया गया है -
उपरोक्त आरेख में दिखाए गए अनुसार मशीन सीखने को बाएं से दाएं तक विकसित किया गया है।
प्रारंभ में, शोधकर्ताओं ने सुपरवाइज्ड लर्निंग के साथ शुरुआत की। यह पहले से चर्चा की गई आवास मूल्य की भविष्यवाणी का मामला है।
इसके बाद बिना पढ़े सीखने का काम किया गया, जहाँ मशीन को बिना किसी पर्यवेक्षण के सीखने के लिए बनाया गया है।
वैज्ञानिकों ने आगे पता लगाया कि मशीन को पुरस्कृत करने के लिए यह एक अच्छा विचार हो सकता है जब यह अपेक्षित तरीके से काम करता है और इसमें सुदृढीकरण सीखना आया।
बहुत जल्द, इन दिनों उपलब्ध डेटा इतना विनम्र हो गया है कि अब तक विकसित पारंपरिक तकनीक बड़े डेटा का विश्लेषण करने और हमें पूर्वानुमान प्रदान करने में विफल रही है।
इस प्रकार, गहन अध्ययन आया जहां मानव मस्तिष्क को हमारे बाइनरी कंप्यूटरों में बनाए गए कृत्रिम तंत्रिका नेटवर्क (एएनएन) में सिम्युलेटेड किया गया है।
मशीन अब उच्च कंप्यूटिंग शक्ति और विशाल स्मृति संसाधनों का उपयोग करके अपने आप सीखती है जो आज उपलब्ध हैं।
अब यह देखा गया है कि डीप लर्निंग ने पहले से चल रही कई समस्याओं को हल कर दिया है।
तकनीक अब दीप लर्निंग नेटवर्क को पुरस्कार के रूप में प्रोत्साहन देकर आगे बढ़ी है और अंत में डीप रेनफोर्समेंट लर्निंग आती है।
आइए अब हम इन श्रेणियों में से प्रत्येक का अधिक विस्तार से अध्ययन करें।
पर्यवेक्षित अध्ययन
पर्यवेक्षित शिक्षण एक बच्चे को चलने के लिए प्रशिक्षित करने के लिए अनुरूप है। आप बच्चे का हाथ पकड़ेंगे, उसे दिखाएंगे कि कैसे अपने पैर को आगे ले जाना है, अपने आप को एक प्रदर्शन और इतने पर चलना चाहिए, जब तक कि बच्चा अपने आप चलना नहीं सीखता।
वापसी
इसी तरह, पर्यवेक्षित शिक्षण के मामले में, आप कंप्यूटर को ठोस ज्ञात उदाहरण देते हैं। आप कहते हैं कि दिए गए फ़ीचर मान X1 के लिए आउटपुट Y1 है, x2 के लिए यह y2 है, x3 के लिए यह y3 है, और इसी तरह। इस डेटा के आधार पर, आप कंप्यूटर को एक्स और वाई के बीच एक आनुभविक संबंध बताते हैं।
एक बार जब मशीन को पर्याप्त संख्या में डेटा बिंदुओं के साथ प्रशिक्षित किया जाता है, तो अब आप मशीन को किसी दिए गए X के लिए Y की भविष्यवाणी करने के लिए कहेंगे। यह मानते हुए कि आप इस दिए गए X के लिए Y का वास्तविक मूल्य जानते हैं, तो आप कटौती कर पाएंगे। क्या मशीन की भविष्यवाणी सही है।
इस प्रकार, आप परीक्षण करेंगे कि मशीन ने ज्ञात परीक्षण डेटा का उपयोग करके सीखा है या नहीं। एक बार जब आप संतुष्ट हो जाते हैं कि मशीन सटीकता के वांछित स्तर के साथ भविष्यवाणियों को करने में सक्षम है (कहते हैं कि 80 से 90%) तो आप मशीन को और अधिक प्रशिक्षण रोक सकते हैं।
अब, आप अज्ञात डेटा बिंदुओं पर भविष्यवाणियों को करने के लिए मशीन का सुरक्षित रूप से उपयोग कर सकते हैं, या मशीन को किसी दिए गए एक्स के लिए वाई की भविष्यवाणी करने के लिए कह सकते हैं जिसके लिए आपको वाई का वास्तविक मूल्य नहीं पता है। यह प्रशिक्षण उस प्रतिगमन के अंतर्गत आता है जिसके बारे में हमने बात की थी पहले।
वर्गीकरण
आप वर्गीकरण समस्याओं के लिए मशीन सीखने की तकनीक का उपयोग भी कर सकते हैं। वर्गीकरण समस्याओं में, आप एक ही समूह में समान प्रकृति की वस्तुओं को वर्गीकृत करते हैं। उदाहरण के लिए, 100 छात्रों के एक समूह में कहा गया है, आप उन्हें अपनी ऊंचाइयों के आधार पर तीन समूहों में बाँटना पसंद कर सकते हैं - लघु, मध्यम और लंबे। प्रत्येक छात्र की ऊंचाई को मापते हुए, आप उन्हें एक उचित समूह में रखेंगे।
अब, जब कोई नया छात्र आएगा, तो आप उसकी ऊँचाई नापकर उसे एक उपयुक्त समूह में डाल देंगे। प्रतिगमन प्रशिक्षण में सिद्धांतों का पालन करके, आप मशीन को उसकी विशेषता - ऊंचाई के आधार पर एक छात्र को वर्गीकृत करने के लिए प्रशिक्षित करेंगे। जब मशीन सीखती है कि समूह कैसे बनते हैं, तो यह किसी भी अज्ञात नए छात्र को सही ढंग से वर्गीकृत करने में सक्षम होगा। एक बार फिर, आप यह जांचने के लिए परीक्षण डेटा का उपयोग करेंगे कि उत्पादन में विकसित मॉडल को डालने से पहले मशीन ने आपके वर्गीकरण की तकनीक सीख ली है।
सुपरवाइज्ड लर्निंग वह जगह है जहाँ एआई ने वास्तव में अपनी यात्रा शुरू की। इस तकनीक को कई मामलों में सफलतापूर्वक लागू किया गया था। आपने अपने मशीन पर हाथ से लिखी मान्यता को करते हुए इस मॉडल का उपयोग किया है। पर्यवेक्षित सीखने के लिए कई एल्गोरिदम विकसित किए गए हैं। आप उनके बारे में निम्नलिखित अध्यायों में जानेंगे।
अनसुचित शिक्षा
अनुपयोगी शिक्षण में, हम मशीन के लिए एक लक्ष्य चर निर्दिष्ट नहीं करते हैं, बल्कि हम मशीन से पूछते हैं "आप मुझे एक्स के बारे में क्या बता सकते हैं?" विशेष रूप से, हम ऐसे प्रश्न पूछ सकते हैं जैसे कि एक बहुत बड़ा डेटा सेट X दिया गया हो, "हम पांच सर्वश्रेष्ठ समूह हैं जिन्हें हम X से बाहर कर सकते हैं?" या "एक्स में सबसे अधिक बार एक साथ क्या विशेषताएं होती हैं?"। इस तरह के सवालों के जवाब पर पहुंचने के लिए, आप समझ सकते हैं कि मशीन को एक रणनीति बनाने के लिए कितने डेटा बिंदुओं की आवश्यकता होगी जो बहुत बड़ी होगी। पर्यवेक्षित सीखने के मामले में, मशीन को लगभग हजारों डेटा बिंदुओं के साथ भी प्रशिक्षित किया जा सकता है। हालाँकि, अप्रशिक्षित सीखने के मामले में, सीखने के लिए उचित रूप से स्वीकृत डेटा बिंदुओं की संख्या कुछ लाखों में शुरू होती है। इन दिनों, डेटा आमतौर पर बहुतायत से उपलब्ध है। डेटा को आदर्श रूप से क्यूरेटिंग की आवश्यकता होती है। हालांकि, एक सामाजिक क्षेत्र नेटवर्क में लगातार बहने वाले डेटा की मात्रा, ज्यादातर मामलों में डेटा क्यूरेशन एक असंभव कार्य है।
निम्न आंकड़ा पीले और लाल बिंदुओं के बीच की सीमा को दिखाता है जैसा कि अनपुर्वीकृत मशीन लर्निंग द्वारा निर्धारित किया गया है। आप यह स्पष्ट रूप से देख सकते हैं कि मशीन काफी अच्छी सटीकता के साथ प्रत्येक काले बिंदुओं के वर्ग को निर्धारित करने में सक्षम होगी।
स्रोत:
https://chrisjmccormick.files.wordpress.com/2013/08/approx_decision_boun dary.png
कई आधुनिक एआई अनुप्रयोगों, जैसे कि चेहरे का पता लगाने, वस्तु का पता लगाने और इतने पर अप्रकाशित शिक्षण ने एक बड़ी सफलता दिखाई है।
सुदृढीकरण सीखना
एक पालतू कुत्ते को प्रशिक्षित करने पर विचार करें, हम अपने पालतू को हमारे पास एक गेंद लाने के लिए प्रशिक्षित करते हैं। हम एक निश्चित दूरी पर गेंद फेंकते हैं और कुत्ते को वापस हमारे पास लाने के लिए कहते हैं। जब भी कुत्ता यह अधिकार करता है, हम कुत्ते को इनाम देते हैं। धीरे-धीरे, कुत्ते को पता चलता है कि सही तरीके से काम करने से उसे इनाम मिलता है और फिर कुत्ते भविष्य में हर बार सही तरीके से काम करना शुरू कर देता है। वास्तव में, यह अवधारणा "सुदृढीकरण" सीखने के प्रकार में लागू होती है। मशीनों को गेम खेलने के लिए शुरू में विकसित किया गया था। मशीन को गेम के प्रत्येक चरण में सभी संभावित चालों का विश्लेषण करने के लिए एक एल्गोरिदम दिया जाता है। मशीन रैंडम में से किसी एक को चुन सकती है। यदि चाल सही है, तो मशीन को पुरस्कृत किया जाता है, अन्यथा इसे दंडित किया जा सकता है। धीरे-धीरे, मशीन सही और गलत चाल के बीच अंतर करना शुरू कर देगी और कई पुनरावृत्तियों के बाद खेल पहेली को बेहतर सटीकता के साथ हल करना सीख जाएगी। गेम जीतने की सटीकता में सुधार होगा क्योंकि मशीन अधिक से अधिक गेम खेलती है।
पूरी प्रक्रिया को निम्नलिखित चित्र में दर्शाया जा सकता है -
मशीन लर्निंग की यह तकनीक उस पर्यवेक्षित शिक्षण से अलग है जिसमें आपको लेबल / आउटपुट जोड़े की आपूर्ति की आवश्यकता नहीं है। ध्यान केंद्रित नए समाधानों की खोज और सीखा समाधानों के दोहन के बीच संतुलन खोजने पर है।
ध्यान लगा के पढ़ना या सीखना
डीप लर्निंग आर्टिफिशियल न्यूरल नेटवर्क्स (ANN) पर आधारित एक मॉडल है, जो विशेष रूप से कन्वर्सेशनल न्यूरल नेटवर्क्स (CNN) s पर आधारित है। गहरी सीख में उपयोग किए जाने वाले कई आर्किटेक्चर हैं जैसे कि गहरे तंत्रिका नेटवर्क, गहरे विश्वास नेटवर्क, आवर्तक तंत्रिका नेटवर्क और दृढ़ तंत्रिका नेटवर्क।
इन नेटवर्क को कंप्यूटर दृष्टि, भाषण मान्यता, प्राकृतिक भाषा प्रसंस्करण, जैव सूचना विज्ञान, दवा डिजाइन, चिकित्सा छवि विश्लेषण और खेल की समस्याओं को हल करने में सफलतापूर्वक लागू किया गया है। ऐसे कई अन्य क्षेत्र हैं जिनमें गहन शिक्षा को व्यावहारिक रूप से लागू किया जाता है। गहरी सीखने के लिए विशाल प्रसंस्करण शक्ति और विनम्र डेटा की आवश्यकता होती है, जो आम तौर पर इन दिनों आसानी से उपलब्ध है।
हम आने वाले अध्यायों के बारे में और अधिक विस्तार से गहराई से सीखने के बारे में बात करेंगे।
दीप सुदृढीकरण सीखना
डीप रिनफोर्समेंट लर्निंग (डीआरएल) गहरी और सुदृढीकरण सीखने की तकनीकों को जोड़ती है। क्यू-लर्निंग जैसे सुदृढीकरण सीखने वाले एल्गोरिदम अब एक शक्तिशाली डीआरएल मॉडल बनाने के लिए गहन सीखने के साथ संयुक्त हैं। तकनीक रोबोटिक्स, वीडियो गेम, वित्त और स्वास्थ्य सेवा के क्षेत्र में एक बड़ी सफलता के साथ रही है। पहले की कई अनचाही समस्याएं अब डीआरएल मॉडल बनाकर हल की गई हैं। इस क्षेत्र में बहुत सारे अनुसंधान चल रहे हैं और यह उद्योगों द्वारा बहुत सक्रिय रूप से अपनाई जा रही है।
अब तक, आपको विभिन्न मशीन लर्निंग मॉडल का एक संक्षिप्त परिचय मिला है, अब आइए इन मॉडलों के तहत उपलब्ध विभिन्न एल्गोरिदम में थोड़ा गहराई से देखें।
पर्यवेक्षित शिक्षण प्रशिक्षण मशीनों में शामिल सीखने के महत्वपूर्ण मॉडलों में से एक है। यह अध्याय उसी के बारे में विस्तार से बात करता है।
सुपरवाइज्ड लर्निंग के लिए एल्गोरिदम
पर्यवेक्षित सीखने के लिए कई एल्गोरिदम उपलब्ध हैं। पर्यवेक्षित अधिगम के कुछ व्यापक रूप से उपयोग किए गए एल्गोरिदम नीचे दिए गए हैं -
- k- निकटतम पड़ोसी
- निर्णय के पेड़
- भोले भाले
- रसद प्रतिगमन
- समर्थन वेक्टर मशीन
जैसा कि हम इस अध्याय में आगे बढ़ते हैं, आइए हम प्रत्येक एल्गोरिदम के बारे में विस्तार से चर्चा करें।
k- निकटतम पड़ोसी
के-नियर नेबर्स, जिसे बस केएनएन कहा जाता है, एक सांख्यिकीय तकनीक है, जिसका उपयोग वर्गीकरण और नियमित समस्याओं के समाधान के लिए किया जा सकता है। आइए हम kNN का उपयोग करके किसी अज्ञात वस्तु को वर्गीकृत करने के मामले पर चर्चा करते हैं। नीचे दी गई छवि में दिखाए अनुसार वस्तुओं के वितरण पर विचार करें -
स्रोत:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
आरेख तीन प्रकार की वस्तुओं को दर्शाता है, जो लाल, नीले और हरे रंगों में चिह्नित हैं। जब आप उपरोक्त डेटासेट पर kNN क्लासिफायर चलाते हैं, तो प्रत्येक प्रकार की वस्तु के लिए सीमाओं को नीचे दर्शाया गया है -
स्रोत:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
अब, एक नई अज्ञात वस्तु पर विचार करें जिसे आप लाल, हरे या नीले रंग में वर्गीकृत करना चाहते हैं। यह नीचे दिए गए चित्र में दर्शाया गया है।
जैसा कि आप इसे नेत्रहीन देखते हैं, अज्ञात डेटा बिंदु नीले ऑब्जेक्ट्स के एक वर्ग के अंतर्गत आता है। गणितीय रूप से, यह डेटा सेट में हर दूसरे बिंदु के साथ इस अज्ञात बिंदु की दूरी को मापकर निष्कर्ष निकाला जा सकता है। जब आप ऐसा करेंगे, तो आपको पता चलेगा कि इसके अधिकांश पड़ोसी नीले रंग के हैं। लाल और हरे रंग की वस्तुओं की औसत दूरी निश्चित रूप से नीली वस्तुओं की औसत दूरी से अधिक होगी। इस प्रकार, इस अज्ञात वस्तु को नीले वर्ग से संबंधित के रूप में वर्गीकृत किया जा सकता है।
केएनएन एल्गोरिथ्म का उपयोग प्रतिगमन समस्याओं के लिए भी किया जा सकता है। केएनएन एल्गोरिथ्म अधिकांश एमएल पुस्तकालयों में तैयार-से-उपयोग के रूप में उपलब्ध है।
निर्णय के पेड़
फ्लोचार्ट प्रारूप में एक साधारण निर्णय ट्री नीचे दिखाया गया है -
आप इस फ़्लोचार्ट के आधार पर अपने इनपुट डेटा को वर्गीकृत करने के लिए एक कोड लिखेंगे। फ़्लोचार्ट आत्म-व्याख्यात्मक और तुच्छ है। इस परिदृश्य में, आप इसे पढ़ने के लिए आने वाले ईमेल को वर्गीकृत करने का प्रयास कर रहे हैं।
वास्तव में, निर्णय पेड़ बड़े और जटिल हो सकते हैं। इन पेड़ों को बनाने और उन्हें पार करने के लिए कई एल्गोरिदम उपलब्ध हैं। मशीन लर्निंग के प्रति उत्साही के रूप में, आपको निर्णय पेड़ों को बनाने और उन्हें फंसाने की इन तकनीकों को समझने और मास्टर करने की आवश्यकता है।
भोले भाले
Naive Bayes का उपयोग classifiers बनाने के लिए किया जाता है। मान लीजिए कि आप एक फलों की टोकरी से विभिन्न प्रकार के फलों को छांटना (वर्गीकृत) करना चाहते हैं। आप किसी फल के रंग, आकार और आकार जैसी सुविधाओं का उपयोग कर सकते हैं, उदाहरण के लिए, कोई भी फल जो लाल रंग का है, आकार में गोल है और लगभग 10 सेमी व्यास का है, इसे Apple माना जा सकता है। इसलिए मॉडल को प्रशिक्षित करने के लिए, आप इन सुविधाओं का उपयोग करेंगे और इस संभावना का परीक्षण करेंगे कि दी गई सुविधा वांछित बाधाओं से मेल खाती है। अलग-अलग सुविधाओं की संभावनाओं को एक संभावना पर पहुंचने के लिए संयुक्त किया जाता है कि एक दिया गया फल एक सेब है। Naive Bayes को आमतौर पर वर्गीकरण के लिए कम संख्या में प्रशिक्षण डेटा की आवश्यकता होती है।
रसद प्रतिगमन
निम्नलिखित आरेख को देखें। यह XY विमान में डेटा बिंदुओं के वितरण को दर्शाता है।
आरेख से, हम हरे बिंदुओं से लाल बिंदुओं के पृथक्करण का निरीक्षण कर सकते हैं। आप इन बिंदुओं को अलग करने के लिए एक सीमा रेखा खींच सकते हैं। अब, एक नए डेटा बिंदु को वर्गीकृत करने के लिए, आपको बस यह निर्धारित करने की आवश्यकता होगी कि बिंदु किस तरफ है।
समर्थन वेक्टर मशीन
डेटा के निम्नलिखित वितरण को देखें। यहां डेटा के तीन वर्गों को रैखिक रूप से अलग नहीं किया जा सकता है। सीमा वक्र गैर-रैखिक हैं। ऐसे मामले में, वक्र का समीकरण ढूंढना एक जटिल काम बन जाता है।
स्रोत: http://uc-r.github.io/svm
समर्थन वेक्टर मशीनें (SVM) ऐसी स्थितियों में पृथक्करण सीमाओं को निर्धारित करने में काम आती हैं।
सौभाग्य से, अधिकांश समय आपको पिछले पाठ में वर्णित एल्गोरिदम को कोड करने की आवश्यकता नहीं है। कई मानक पुस्तकालय हैं जो इन एल्गोरिदम के तैयार-से-उपयोग कार्यान्वयन प्रदान करते हैं। एक ऐसा टूलकिट जो लोकप्रिय रूप से उपयोग किया जाता है, वह है डरावना-सीखें। नीचे दी गई आकृति इस तरह के एल्गोरिदम को दर्शाती है जो इस पुस्तकालय में आपके उपयोग के लिए उपलब्ध हैं।
स्रोत: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
इन एल्गोरिदम का उपयोग तुच्छ है और चूंकि ये अच्छी तरह से और क्षेत्र परीक्षण किए गए हैं, इसलिए आप इन्हें अपने एआई अनुप्रयोगों में सुरक्षित रूप से उपयोग कर सकते हैं। इन पुस्तकालयों में से अधिकांश व्यावसायिक उद्देश्यों के लिए भी उपयोग करने के लिए स्वतंत्र हैं।
अब तक आपने जो देखा है वह मशीन को हमारे लक्ष्य का समाधान खोजने के लिए सीख रहा है। प्रतिगमन में, हम भविष्य के मूल्य का अनुमान लगाने के लिए मशीन को प्रशिक्षित करते हैं। वर्गीकरण में, हम मशीन को हमारे द्वारा परिभाषित श्रेणियों में एक अज्ञात वस्तु को वर्गीकृत करने के लिए प्रशिक्षित करते हैं। संक्षेप में, हम मशीनों का प्रशिक्षण कर रहे हैं ताकि यह हमारे डेटा एक्स के लिए वाई की भविष्यवाणी कर सके। एक विशाल डेटा सेट को देखते हुए और श्रेणियों का आकलन नहीं करते हुए, हमारे लिए पर्यवेक्षित शिक्षण का उपयोग करके मशीन को प्रशिक्षित करना मुश्किल होगा। क्या होगा यदि मशीन कई गीगाबाइट और टेराबाइट्स में चल रहे बड़े डेटा का विश्लेषण कर सकती है और हमें बता सकती है कि इस डेटा में इतनी अलग-अलग श्रेणियां हैं?
एक उदाहरण के रूप में, मतदाता के आंकड़ों पर विचार करें। प्रत्येक मतदाता से कुछ इनपुटों पर विचार करके (इन्हें एआई शब्दावली में विशेषताएं कहा जाता है), मशीन को यह अनुमान लगाने दें कि बहुत सारे मतदाता हैं जो एक्स राजनीतिक पार्टी को वोट देंगे और इतने सारे वाई को वोट करेंगे, और इसी तरह। इस प्रकार, सामान्य तौर पर, हम मशीन को डेटा पॉइंट X का एक बड़ा सेट दिए जाने के लिए कह रहे हैं, "आप मुझे एक्स के बारे में क्या बता सकते हैं?"। या यह एक सवाल हो सकता है कि "हम एक्स से बाहर कर सकते हैं पांच सबसे अच्छे समूह क्या हैं?" या यह भी हो सकता है "एक्स में सबसे अधिक बार एक साथ तीन विशेषताएं क्या होती हैं?"।
यह बिल्कुल अनसुनी हुई शिक्षा है।
Unsupervised Learning के लिए एल्गोरिदम
आइए अब हम अनसुनी मशीन लर्निंग में वर्गीकरण के लिए व्यापक रूप से उपयोग किए जाने वाले एल्गोरिदम में से एक पर चर्चा करते हैं।
k- साधन क्लस्टरिंग
संयुक्त राज्य अमेरिका में 2000 और 2004 के राष्ट्रपति चुनाव करीब - करीब थे। किसी भी उम्मीदवार को मिले लोकप्रिय वोट का सबसे बड़ा प्रतिशत 50.7% और सबसे कम 47.9% था। यदि मतदाताओं के प्रतिशत का पक्ष बदल दिया जाता, तो चुनाव के परिणाम भिन्न होते। मतदाताओं के छोटे समूह हैं, जो जब ठीक से अपील करते हैं, तो पक्षों को बदल देंगे। ये समूह विशाल नहीं हो सकते हैं, लेकिन इस तरह के करीबी दौड़ के साथ, वे चुनाव के परिणाम को बदलने के लिए काफी बड़े हो सकते हैं। आप लोगों के इन समूहों को कैसे ढूंढते हैं? आप सीमित बजट के साथ उनसे कैसे अपील करते हैं? जवाब है क्लस्टरिंग।
आइए हम समझते हैं कि यह कैसे किया जाता है।
सबसे पहले, आप उन लोगों के बारे में या उनकी सहमति के बिना जानकारी एकत्र करते हैं: किसी भी प्रकार की जानकारी जो उनके बारे में कुछ संकेत दे सकती है कि उनके लिए क्या महत्वपूर्ण है और वे कैसे मतदान करते हैं, पर क्या प्रभाव पड़ेगा।
फिर आप इस जानकारी को किसी प्रकार के क्लस्टरिंग एल्गोरिथ्म में डालते हैं।
अगला, प्रत्येक क्लस्टर के लिए (यह सबसे बड़ा एक को चुनने के लिए स्मार्ट होगा) आप एक संदेश भेजते हैं जो इन मतदाताओं से अपील करेगा।
अंत में, आप अभियान वितरित करते हैं और यह देखने के लिए मापते हैं कि क्या यह काम कर रहा है।
क्लस्टरिंग एक प्रकार की अप्रशिक्षित शिक्षा है जो स्वचालित रूप से समान चीजों के समूह बनाती है। यह स्वचालित वर्गीकरण की तरह है। आप लगभग कुछ भी क्लस्टर कर सकते हैं, और क्लस्टर में जितने अधिक आइटम होंगे, क्लस्टर उतने ही बेहतर होंगे। इस अध्याय में, हम एक प्रकार के क्लस्टरिंग एल्गोरिथ्म का अध्ययन करने जा रहे हैं, जिसे k- साधन कहा जाता है। इसे k-Means कहा जाता है क्योंकि यह 'k' अद्वितीय क्लस्टर पाता है, और प्रत्येक क्लस्टर का केंद्र उस क्लस्टर में मान का मतलब है।
क्लस्टर पहचान
क्लस्टर पहचान एक एल्गोरिथ्म बताता है, “यहाँ कुछ डेटा है। अब समान चीजों को एक साथ समूहित करें और मुझे उन समूहों के बारे में बताएं। " वर्गीकरण से महत्वपूर्ण अंतर यह है कि वर्गीकरण में आप जानते हैं कि आप क्या देख रहे हैं। जबकि ऐसा नहीं है कि क्लस्टरिंग में मामला है।
क्लस्टरिंग को कभी-कभी अप्रमाणित वर्गीकरण भी कहा जाता है क्योंकि यह उसी परिणाम को उत्पन्न करता है जैसे वर्गीकरण करता है लेकिन पूर्वनिर्धारित कक्षाओं के बिना।
अब, हम पर्यवेक्षित और अनुपयोगी शिक्षा दोनों के साथ सहज हैं। मशीन सीखने की बाकी श्रेणियों को समझने के लिए, हमें पहले कृत्रिम तंत्रिका नेटवर्क (एएनएन) को समझना चाहिए, जिसे हम अगले अध्याय में जानेंगे।
कृत्रिम तंत्रिका नेटवर्क का विचार मानव मस्तिष्क में तंत्रिका नेटवर्क से लिया गया था। मानव मस्तिष्क वास्तव में जटिल है। मस्तिष्क का सावधानीपूर्वक अध्ययन करने पर, वैज्ञानिक और इंजीनियर एक ऐसी वास्तुकला के साथ आए, जो हमारे बाइनरी कंप्यूटर की डिजिटल दुनिया में फिट हो सकती है। ऐसा ही एक विशिष्ट वास्तुकला नीचे चित्र में दिखाया गया है -
एक इनपुट परत है जिसमें बाहरी दुनिया से डेटा एकत्र करने के लिए कई सेंसर हैं। दाहिने हाथ की तरफ, हमारे पास एक आउटपुट परत है जो हमें नेटवर्क द्वारा अनुमानित परिणाम देता है। इन दोनों के बीच में, कई परतें छिपी हुई हैं। प्रत्येक अतिरिक्त परत नेटवर्क को प्रशिक्षित करने में और जटिलता जोड़ती है, लेकिन अधिकांश स्थितियों में बेहतर परिणाम प्रदान करती है। कई प्रकार के आर्किटेक्चर डिज़ाइन किए गए हैं जिनके बारे में हम अभी चर्चा करेंगे।
एएनएन आर्किटेक्चर
नीचे दिए गए आरेख समय की अवधि में विकसित कई एएनएन आर्किटेक्चर दिखाते हैं और आज अभ्यास में हैं।
स्रोत:
https://towardsdatascience.com/the-mostly-complete-chart-of-neural-networks-explained-3fb6f2367464
प्रत्येक आर्किटेक्चर को एक विशेष प्रकार के अनुप्रयोग के लिए विकसित किया जाता है। इस प्रकार, जब आप अपने मशीन सीखने के अनुप्रयोग के लिए एक तंत्रिका नेटवर्क का उपयोग करते हैं, तो आपको मौजूदा आर्किटेक्चर में से किसी एक का उपयोग करना होगा या अपना खुद का डिज़ाइन करना होगा। आपके द्वारा अंतिम रूप से तय किए गए एप्लिकेशन का प्रकार आपकी एप्लिकेशन आवश्यकताओं पर निर्भर करता है। कोई एकल दिशानिर्देश नहीं है जो आपको एक विशिष्ट नेटवर्क वास्तुकला का उपयोग करने के लिए कहता है।
डीप लर्निंग ANN का उपयोग करता है। पहले हम कुछ गहरे शिक्षण अनुप्रयोगों पर ध्यान देंगे जो आपको इसकी शक्ति का अंदाजा देंगे।
अनुप्रयोग
डीप लर्निंग ने मशीन लर्निंग एप्लिकेशन के कई क्षेत्रों में बहुत सफलता दिखाई है।
Self-driving Cars- स्वायत्त स्व-ड्राइविंग कार गहरी सीखने की तकनीक का उपयोग करते हैं। वे आम तौर पर बदलती यातायात स्थितियों के अनुकूल होते हैं और समय के साथ ड्राइविंग में बेहतर और बेहतर हो जाते हैं।
Speech Recognition- डीप लर्निंग का एक और दिलचस्प अनुप्रयोग भाषण मान्यता है। हम सभी आज कई मोबाइल ऐप का उपयोग करते हैं जो हमारे भाषण को पहचानने में सक्षम हैं। Apple के सिरी, अमेज़ॅन के एलेक्सा, माइक्रोसॉफ्ट के कॉर्टेना और Google के सहायक - ये सभी गहरी सीखने की तकनीक का उपयोग करते हैं।
Mobile Apps- हम अपनी तस्वीरों को व्यवस्थित करने के लिए कई वेब-आधारित और मोबाइल एप्लिकेशन का उपयोग करते हैं। फेस डिटेक्शन, फेस आईडी, फेस टैगिंग, किसी इमेज में ऑब्जेक्ट्स की पहचान करना - ये सभी डीप लर्निंग का इस्तेमाल करते हैं।
डीप लर्निंग के अनकैप्ड अवसर
कई क्षेत्रों में बड़ी सफलता प्राप्त करने के बाद गहन शिक्षण अनुप्रयोगों को देखने के बाद, लोगों ने अन्य डोमेन तलाशना शुरू कर दिया जहां मशीन सीखना अभी तक लागू नहीं हुआ था। ऐसे कई डोमेन हैं जिनमें गहरी सीखने की तकनीक सफलतापूर्वक लागू की जाती है और कई अन्य डोमेन हैं जिनका शोषण किया जा सकता है। इनमें से कुछ पर यहां चर्चा की गई है।
कृषि एक ऐसा उद्योग है जहां लोग फसल की पैदावार में सुधार के लिए गहन शिक्षण तकनीकों को लागू कर सकते हैं।
कंज्यूमर फाइनेंस एक और क्षेत्र है जहां मशीन लर्निंग फ्रॉड पर शुरुआती पता लगाने और ग्राहक के भुगतान की क्षमता का विश्लेषण करने में बहुत मदद कर सकता है।
नई दवाओं को बनाने और एक मरीज को व्यक्तिगत नुस्खे प्रदान करने के लिए चिकित्सा के क्षेत्र में गहरी सीखने की तकनीक भी लागू की जाती है।
संभावनाएं अनंत हैं और किसी को नए विचारों और घटनाक्रमों को बार-बार देखते रहना चाहिए।
डीप लर्निंग का अधिक उपयोग करने के लिए क्या आवश्यक है
गहरी शिक्षा का उपयोग करने के लिए, सुपरकंप्यूटिंग पावर एक अनिवार्य आवश्यकता है। गहन शिक्षण मॉडल विकसित करने के लिए आपको मेमोरी के साथ-साथ सीपीयू दोनों की आवश्यकता होती है। सौभाग्य से, आज हमारे पास एचपीसी - उच्च निष्पादन कम्प्यूटिंग की आसान उपलब्धता है। इसके कारण, हमने जिन गहन शिक्षण अनुप्रयोगों का उल्लेख किया था उनका विकास आज एक वास्तविकता बन गया है और भविष्य में भी हम उन अनछुए क्षेत्रों में अनुप्रयोगों को देख सकते हैं जिनकी हमने पहले चर्चा की थी।
अब, हम गहन सीखने की कुछ सीमाओं को देखेंगे जिन्हें हमें अपने मशीन लर्निंग एप्लिकेशन में उपयोग करने से पहले विचार करना चाहिए।
गहरे सीखने के नुकसान
गहरी सीखने का उपयोग करने से पहले आपको जिन कुछ महत्वपूर्ण बिंदुओं पर विचार करने की आवश्यकता है, वे नीचे सूचीबद्ध हैं -
- ब्लैक बॉक्स दृष्टिकोण
- विकास की अवधि
- डाटा की मात्रा
- कम्प्यूटेशनल रूप से महंगा
अब हम इन सीमाओं में से प्रत्येक का विस्तार से अध्ययन करेंगे।
ब्लैक बॉक्स दृष्टिकोण
एक ANN एक ब्लैकबॉक्स की तरह है। आप इसे एक निश्चित इनपुट देते हैं और यह आपको एक विशिष्ट आउटपुट प्रदान करेगा। निम्न आरेख आपको एक ऐसा अनुप्रयोग दिखाता है जहां आप एक जानवर की छवि को एक तंत्रिका नेटवर्क को खिलाते हैं और यह आपको बताता है कि छवि एक कुत्ते की है।
इसे ब्लैक-बॉक्स दृष्टिकोण क्यों कहा जाता है कि आप नहीं जानते कि नेटवर्क एक निश्चित परिणाम के साथ क्यों आया। आपको नहीं पता कि नेटवर्क ने कैसे निष्कर्ष निकाला कि यह एक कुत्ता है? अब एक बैंकिंग एप्लिकेशन पर विचार करें जहां बैंक ग्राहक की साख को तय करना चाहता है। नेटवर्क निश्चित रूप से आपको इस प्रश्न का उत्तर प्रदान करेगा। हालांकि, क्या आप इसे एक ग्राहक को सही ठहरा पाएंगे? बैंकों को अपने ग्राहकों को यह समझाने की आवश्यकता है कि ऋण क्यों मंजूर नहीं किया गया है?
विकास की अवधि
एक तंत्रिका नेटवर्क के प्रशिक्षण की प्रक्रिया को नीचे दिए गए चित्र में दर्शाया गया है -
आप पहले उस समस्या को परिभाषित करते हैं जिसे आप हल करना चाहते हैं, इसके लिए एक विनिर्देश बनाएं, इनपुट सुविधाओं पर निर्णय लें, एक नेटवर्क डिज़ाइन करें, इसे तैनात करें और आउटपुट का परीक्षण करें। यदि आउटपुट अपेक्षित नहीं है, तो अपने नेटवर्क के पुनर्गठन के लिए एक प्रतिक्रिया के रूप में इसे लें। यह एक पुनरावृत्त प्रक्रिया है और इसमें कई पुनरावृत्तियों की आवश्यकता हो सकती है जब तक कि समय नेटवर्क पूरी तरह से वांछित आउटपुट के लिए प्रशिक्षित नहीं होता है।
डाटा की मात्रा
प्रशिक्षण के लिए गहन शिक्षण नेटवर्क को आमतौर पर बड़ी मात्रा में डेटा की आवश्यकता होती है, जबकि पारंपरिक मशीन लर्निंग एल्गोरिदम का उपयोग केवल कुछ हजारों डेटा बिंदुओं के साथ भी बड़ी सफलता के साथ किया जा सकता है। सौभाग्य से, डेटा बहुतायत 40% प्रति वर्ष और CPU प्रसंस्करण शक्ति प्रति वर्ष 20% की दर से बढ़ रही है जैसा कि नीचे दिए गए चित्र में देखा जा रहा है -
कम्प्यूटेशनल रूप से महंगा
एक तंत्रिका नेटवर्क को प्रशिक्षित करने के लिए पारंपरिक एल्गोरिदम को चलाने में आवश्यक कई गुना अधिक कम्प्यूटेशनल शक्ति की आवश्यकता होती है। गहरे तंत्रिका नेटवर्क के सफल प्रशिक्षण के लिए कई सप्ताह के प्रशिक्षण समय की आवश्यकता हो सकती है।
इसके विपरीत, पारंपरिक मशीन लर्निंग एल्गोरिदम को प्रशिक्षित होने में केवल कुछ मिनट / घंटे लगते हैं। इसके अलावा, गहन तंत्रिका नेटवर्क के प्रशिक्षण के लिए आवश्यक कम्प्यूटेशनल शक्ति की मात्रा आपके डेटा के आकार पर निर्भर करती है और नेटवर्क कितना गहरा और जटिल है?
मशीन लर्निंग क्या है, इसकी क्षमताओं, सीमाओं और अनुप्रयोगों का अवलोकन करने के बाद, आइए अब हम "मशीन लर्निंग" सीखने में गोता लगाएँ।
मशीन लर्निंग की एक बहुत बड़ी चौड़ाई है और कई डोमेन में कौशल की आवश्यकता होती है। मशीन लर्निंग में विशेषज्ञ बनने के लिए आपको जो कौशल हासिल करने की जरूरत है, वे नीचे सूचीबद्ध हैं -
- Statistics
- संभाव्यता सिद्धांत
- Calculus
- अनुकूलन तकनीक
- Visualization
मशीन लर्निंग के विभिन्न कौशल की आवश्यकता
आपको यह जानने का एक संक्षिप्त विचार देने के लिए कि आपको किन कौशल हासिल करने की आवश्यकता है, आइए कुछ उदाहरणों पर चर्चा करें -
गणितीय संकेतन
अधिकांश मशीन लर्निंग एल्गोरिदम गणित पर आधारित होते हैं। गणित के जिस स्तर की आपको जानकारी होनी चाहिए, वह शायद अभी शुरुआती स्तर है। यह महत्वपूर्ण है कि आप उन समीकरणों को पढ़ सकें जो गणितज्ञ अपने समीकरणों में उपयोग करते हैं। उदाहरण के लिए - यदि आप संकेतन को पढ़ने में सक्षम हैं और इसका अर्थ समझ रहे हैं, तो आप मशीन लर्निंग सीखने के लिए तैयार हैं। यदि नहीं, तो आपको अपने गणित ज्ञान को ब्रश करने की आवश्यकता हो सकती है।
$$ f_ {AN} (net- \ theta) = \ _ {केस} \ gamma & if \: net- \ theta \ geq \ epsilon \\ net- \ theta & if - \ epsilon "net-\ theta \" epsilon \\ - \ Gamma & if \: net- \ theta \ leq- \ epsilon \ end {मामले} $ $
$$ \ displaystyle \\\ अधिकतम \ सीमाएँ \ {\ Alpha} \ start {bmatrix} \ displaystyle \ sum \ limit_ {i = 1} ^ m \ Alpha- \ frac {1} {2} \ displaystyle \ sum \ limit_ { i, j = 1} ^ m लेबल ^ \ left (\ start {array} {c} i \\ \ end {array} \ right) \ cdot \: लेबल ^ \ left (\ start {array} {c} j \\ \ अंत {सरणी} \ सही) \ cdot \: a_ {i} \ cdot \: a_ {j} \ langle x ^ \ left (\ start {array} {c} i \\ \ end {array} \ _ दाएँ), x ^ \ बाएँ (\ start {array} {c} j \\ \ end {array} \ right) \ rangle \ end {bmatrix} $$
$$ F_ {एक} (शुद्ध \ थीटा) = \ छोड़ दिया (\ frac {ई ^ {\ lambda (शुद्ध \ थीटा)} - ई ^ {- \ lambda (शुद्ध \ थीटा)}} {ई ^ { \ lambda (शुद्ध \ थीटा)} + ई ^ {- \ lambda (शुद्ध \ थीटा)}} \ right) \; $$
सिद्धांत संभावना
यहाँ संभावना सिद्धांत के अपने वर्तमान ज्ञान का परीक्षण करने के लिए एक उदाहरण है: सशर्त संभावनाओं के साथ वर्गीकरण।
$$ पी (c_ {मैं} | एक्स, वाई) \; = \ frac {पी (एक्स, वाई | c_ {मैं}) \, पी (c_ {मैं}) \;} {पी (एक्स, वाई) \ ;} $$
इन परिभाषाओं के साथ, हम बायेसियन वर्गीकरण नियम को परिभाषित कर सकते हैं -
- यदि P (c1 | x, y)> P (c2 | x, y), वर्ग c1 है।
- यदि P (c1 | x, y) <P (c2 | x, y), वर्ग c2 है।
अनुकूलन समस्या
यहाँ एक अनुकूलन कार्य है
$$ \ displaystyle \\\ अधिकतम \ सीमाएँ \ {\ Alpha} \ start {bmatrix} \ displaystyle \ sum \ limit_ {i = 1} ^ m \ Alpha- \ frac {1} {2} \ displaystyle \ sum \ limit_ { i, j = 1} ^ m लेबल ^ \ left (\ start {array} {c} i \\ \ end {array} \ right) \ cdot \: लेबल ^ \ left (\ start {array} {c} j \\ \ अंत {सरणी} \ सही) \ cdot \: a_ {i} \ cdot \: a_ {j} \ langle x ^ \ left (\ start {array} {c} i \\ \ end {array} \ _ दाएँ), x ^ \ बाएँ (\ start {array} {c} j \\ \ end {array} \ right) \ rangle \ end {bmatrix} $$
निम्नलिखित बाधाओं के अधीन -
$$ \ Alpha \ geq0, और \: \ displaystyle \ sum \ limit_ {i-1} ^ m \ alpha_ {i} \ cdot \: लेबल ^ \ left (\ start {array} {c} i \\ का अंत) {सरणी} \ right) = 0 $$
यदि आप उपरोक्त को पढ़ और समझ सकते हैं, तो आप सभी तैयार हैं।
VISUALIZATION
कई मामलों में, आपको अपने डेटा वितरण को समझने और एल्गोरिथम के आउटपुट के परिणामों की व्याख्या करने के लिए विभिन्न प्रकार के विज़ुअलाइज़ेशन प्लॉट्स को समझने की आवश्यकता होगी।
मशीन लर्निंग के उपरोक्त सैद्धांतिक पहलुओं के अलावा, आपको उन एल्गोरिदम को कोड करने के लिए अच्छे प्रोग्रामिंग कौशल की आवश्यकता होती है।
तो एमएल लागू करने में क्या लगता है? आइए हम अगले अध्याय में इस पर ध्यान दें।
एमएल अनुप्रयोगों को विकसित करने के लिए, आपको मंच, आईडीई और विकास के लिए भाषा पर फैसला करना होगा। कई विकल्प उपलब्ध हैं। इनमें से अधिकांश आपकी आवश्यकताओं को आसानी से पूरा करेंगे क्योंकि ये सभी अब तक चर्चा की गई एआई एल्गोरिदम के कार्यान्वयन को प्रदान करते हैं।
यदि आप अपने आप एमएल एल्गोरिदम विकसित कर रहे हैं, तो निम्नलिखित पहलुओं को ध्यान से समझने की आवश्यकता है -
आपकी पसंद की भाषा - यह अनिवार्य रूप से एमएल विकास में समर्थित भाषाओं में से एक में आपकी प्रवीणता है।
आईडीई जो आप उपयोग करते हैं - यह मौजूदा आईडीई और आपके आराम स्तर के साथ आपकी परिचितता पर निर्भर करेगा।
Development platform- विकास और तैनाती के लिए कई मंच उपलब्ध हैं। इनमें से ज्यादातर फ्री-टू-यूज़ हैं। कुछ मामलों में, आपको एक निश्चित राशि से अधिक के लाइसेंस शुल्क का उपयोग करना पड़ सकता है। यहां आपके तैयार संदर्भ के लिए भाषाओं, आईडीई और प्लेटफार्मों की पसंद की एक संक्षिप्त सूची है।
भाषा विकल्प
यहां उन भाषाओं की सूची दी गई है जो एमएल विकास का समर्थन करती हैं -
- Python
- R
- Matlab
- Octave
- Julia
- C++
- C
यह सूची अनिवार्य रूप से व्यापक नहीं है; हालाँकि, यह मशीन सीखने के विकास में उपयोग की जाने वाली कई लोकप्रिय भाषाओं को शामिल करता है। अपने आराम के स्तर के आधार पर, विकास के लिए एक भाषा का चयन करें, अपने मॉडल और परीक्षण विकसित करें।
इडस
यहां आईडीई की एक सूची दी गई है जो एमएल विकास का समर्थन करती है -
- आर स्टूडियो
- Pycharm
- iPython / Jupyter नोटबुक
- Julia
- Spyder
- Anaconda
- Rodeo
- Google -कोलाब
उपरोक्त सूची अनिवार्य रूप से व्यापक नहीं है। हर एक की अपनी खूबियाँ और अवगुण हैं। पाठक को एक ही बार में संकुचित करने से पहले इन अलग-अलग आईडीई को आज़माने के लिए प्रोत्साहित किया जाता है।
प्लेटफार्मों
यहां उन प्लेटफार्मों की एक सूची दी गई है जिन पर एमएल अनुप्रयोगों को तैनात किया जा सकता है -
- IBM
- Microsoft Azure
- Google मेघ
- Amazon
- Mlflow
एक बार फिर यह सूची संपूर्ण नहीं है। पाठक को उपरोक्त सेवाओं के लिए साइन-अप करने और उन्हें स्वयं आज़माने के लिए प्रोत्साहित किया जाता है।
इस ट्यूटोरियल ने आपको मशीन लर्निंग से परिचित कराया है। अब, आप जानते हैं कि मशीन लर्निंग एक मानव मस्तिष्क की गतिविधियों को करने के लिए प्रशिक्षण मशीनों की एक तकनीक है, जो औसत मानव की तुलना में थोड़ा तेज और बेहतर है। आज हमने देखा है कि मशीनें शतरंज, अल्फा जीओ जैसे खेलों में मानव चैंपियन को हरा सकती हैं, जिन्हें बहुत जटिल माना जाता है। आपने देखा है कि मशीनों को कई क्षेत्रों में मानवीय गतिविधियों को करने के लिए प्रशिक्षित किया जा सकता है और बेहतर जीवन जीने में मनुष्यों की सहायता कर सकता है।
मशीन लर्निंग एक सुपरवाइज्ड या अनसुपरवाइज्ड हो सकता है। यदि आपके पास प्रशिक्षण के लिए कम डेटा और स्पष्ट रूप से लेबल किए गए डेटा हैं, तो पर्यवेक्षित अधिगम के लिए विकल्प चुनें। आम तौर पर अनसुनी हुई लर्निंग बड़े डेटा सेट के लिए बेहतर प्रदर्शन और परिणाम देती है। यदि आपके पास एक विशाल डेटा सेट आसानी से उपलब्ध है, तो गहन शिक्षण तकनीकों के लिए जाएं। आपने सुदृढीकरण सीखना और दीप सुदृढीकरण सीखना भी सीखा है। अब आप जानते हैं कि न्यूरल नेटवर्क क्या हैं, उनके अनुप्रयोग और सीमाएँ।
अंत में, जब आपके स्वयं के मशीन लर्निंग मॉडल के विकास की बात आती है, तो आपने विभिन्न विकास भाषाओं, आईडीई और प्लेटफार्मों के विकल्पों को देखा। अगली बात जो आपको करने की ज़रूरत है वह सीखना और प्रत्येक मशीन सीखने की तकनीक का अभ्यास करना शुरू करना है। विषय विशाल है, इसका मतलब है कि चौड़ाई है, लेकिन अगर आप गहराई पर विचार करते हैं, तो प्रत्येक विषय को कुछ घंटों में सीखा जा सकता है। प्रत्येक विषय एक-दूसरे से स्वतंत्र होता है। आपको एक बार में एक विषय पर ध्यान देने की आवश्यकता है, इसे सीखें, इसका अभ्यास करें और इसमें एल्गोरिथम / एस को लागू करें और अपनी भाषा विकल्प का उपयोग करें। मशीन लर्निंग का अध्ययन शुरू करने का यह सबसे अच्छा तरीका है। एक समय में एक विषय का अभ्यास करना, बहुत जल्द आप उस चौड़ाई को प्राप्त कर लेंगे जो अंततः मशीन लर्निंग विशेषज्ञ की आवश्यकता होती है।
शुभ लाभ!