पायथन के साथ मशीन लर्निंग - तरीके
विभिन्न एमएल एल्गोरिदम, तकनीक और विधियां हैं जिनका उपयोग डेटा का उपयोग करके वास्तविक जीवन की समस्याओं को हल करने के लिए मॉडल बनाने के लिए किया जा सकता है। इस अध्याय में, हम ऐसे विभिन्न तरीकों के बारे में चर्चा करने जा रहे हैं।
विभिन्न प्रकार के तरीके
कुछ विस्तृत श्रेणियों के आधार पर विभिन्न एमएल विधियाँ निम्नलिखित हैं -
मानव पर्यवेक्षण के आधार पर
सीखने की प्रक्रिया में, मानव पर्यवेक्षण पर आधारित कुछ विधियाँ निम्नानुसार हैं -
Supervised Learning
सुपरवाइज्ड लर्निंग अल्गोरिद्म या मेथड सबसे ज्यादा इस्तेमाल किया जाने वाला ML एल्गोरिदम है। यह विधि या लर्निंग एल्गोरिदम डेटा सैंपल यानी प्रशिक्षण डेटा और उससे जुड़े आउटपुट यानी लेबल या प्रतिक्रियाओं को प्रशिक्षण प्रक्रिया के दौरान प्रत्येक डेटा सैंपल के साथ लेती है।
पर्यवेक्षित शिक्षण एल्गोरिदम का मुख्य उद्देश्य कई प्रशिक्षण डेटा उदाहरणों को निष्पादित करने के बाद इनपुट डेटा नमूनों और इसी आउटपुट के बीच एक संबंध सीखना है।
उदाहरण के लिए, हमारे पास है
x: इनपुट चर और
Y: आउटपुट चर
अब, इनपुट से आउटपुट तक मैपिंग फ़ंक्शन सीखने के लिए एक एल्गोरिदम लागू करें -
वाई = f (x)
अब, मुख्य उद्देश्य मैपिंग फ़ंक्शन को इतनी अच्छी तरह से अनुमानित करना होगा कि जब हमारे पास नया इनपुट डेटा (x) हो, तब भी हम उस नए इनपुट डेटा के लिए आउटपुट चर (Y) का अनुमान आसानी से लगा सकते हैं।
इसे पर्यवेक्षित कहा जाता है क्योंकि सीखने की पूरी प्रक्रिया के बारे में सोचा जा सकता है क्योंकि इसकी देखरेख शिक्षक या पर्यवेक्षक द्वारा की जा रही है। पर्यवेक्षित मशीन लर्निंग एल्गोरिदम के उदाहरणों में शामिल हैंDecision tree, Random Forest, KNN, Logistic Regression आदि।
एमएल कार्यों के आधार पर, पर्यवेक्षित शिक्षण एल्गोरिदम को दो व्यापक वर्गों में विभाजित किया जा सकता है -
- Classification
- Regression
Classification
वर्गीकरण-आधारित कार्यों का मुख्य उद्देश्य दिए गए इनपुट डेटा के लिए श्रेणीबद्ध आउटपुट लेबल या प्रतिक्रियाओं की भविष्यवाणी करना है। प्रशिक्षण चरण में मॉडल ने जो सीखा है, उसके आधार पर आउटपुट होगा। जैसा कि हम जानते हैं कि श्रेणीबद्ध आउटपुट प्रतिक्रियाओं का अर्थ है अव्यवस्थित और असतत मूल्य, इसलिए प्रत्येक आउटपुट प्रतिक्रिया एक विशिष्ट वर्ग या श्रेणी से संबंधित होगी। हम आगामी अध्यायों में भी वर्गीकरण और संबंधित एल्गोरिदम पर विस्तार से चर्चा करेंगे।
Regression
प्रतिगमन-आधारित कार्यों का मुख्य उद्देश्य दिए गए इनपुट डेटा के लिए आउटपुट लेबल या प्रतिक्रियाओं का अनुमान लगाना है जो संख्यात्मक मान जारी रखते हैं। आउटपुट उसके प्रशिक्षण चरण में क्या सीखा है, इस पर आधारित होगा। मूल रूप से, प्रतिगमन मॉडल इनपुट डेटा सुविधाओं (स्वतंत्र चर) और उनके संबंधित निरंतर संख्यात्मक आउटपुट मान (निर्भर या परिणाम चर) का उपयोग इनपुट और संबंधित आउटपुट के बीच विशिष्ट सहयोग को जानने के लिए करते हैं। हम आगे के अध्यायों में भी प्रतिगमन और संबंधित एल्गोरिदम पर विस्तार से चर्चा करेंगे।
अनसुचित शिक्षा
जैसा कि नाम से पता चलता है, यह पर्यवेक्षित एमएल तरीकों या एल्गोरिदम के विपरीत है, जिसका मतलब है कि बिना पढ़े मशीन लर्निंग एल्गोरिदम में हमारे पास किसी भी प्रकार का मार्गदर्शन प्रदान करने के लिए कोई पर्यवेक्षक नहीं है। अनसुपर्वीकृत लर्निंग एल्गोरिदम उस परिदृश्य में आसान होते हैं जिसमें हमारे पास स्वतंत्रता नहीं होती है, जैसे कि पर्यवेक्षित शिक्षण एल्गोरिदम में, पूर्व-लेबल प्रशिक्षण डेटा होने की और हम इनपुट डेटा से उपयोगी पैटर्न निकालना चाहते हैं।
उदाहरण के लिए, इसे इस प्रकार समझा जा सकता है -
मान लीजिए हमारे पास है -
x: Input variables, तब कोई समान आउटपुट चर नहीं होगा और एल्गोरिदम को सीखने के लिए डेटा में दिलचस्प पैटर्न की खोज करने की आवश्यकता है।
अनुपयोगी मशीन लर्निंग एल्गोरिदम के उदाहरणों में K- साधन क्लस्टरिंग शामिल हैं, K-nearest neighbors आदि।
एमएल कार्यों के आधार पर, अप्रशिक्षित शिक्षण एल्गोरिदम को निम्नलिखित व्यापक वर्गों में विभाजित किया जा सकता है -
- Clustering
- Association
- आयाम में कमी
Clustering
क्लस्टरिंग विधियाँ सबसे उपयोगी अनुपयोगी एमएल विधियों में से एक हैं। ये एल्गोरिदम डेटा नमूनों के बीच समानता के साथ-साथ संबंधों के पैटर्न को खोजने के लिए इस्तेमाल किया गया और फिर उन नमूनों को उन समूहों में क्लस्टर कर दिया जिनमें सुविधाओं के आधार पर समानता थी। क्लस्टरिंग का वास्तविक-विश्व उदाहरण ग्राहकों को उनके क्रय व्यवहार के आधार पर समूहित करना है।
Association
एक अन्य उपयोगी अनुपयोगी एमएल विधि है Associationजिसका उपयोग बड़े डेटासेट का विश्लेषण करने के लिए पैटर्न खोजने के लिए किया जाता है जो आगे विभिन्न वस्तुओं के बीच दिलचस्प संबंधों का प्रतिनिधित्व करता है। इसे भी कहा जाता हैAssociation Rule Mining या Market basket analysis जो मुख्य रूप से ग्राहक खरीदारी पैटर्न का विश्लेषण करने के लिए उपयोग किया जाता है।
Dimensionality Reduction
प्रिंसिपल या प्रतिनिधि सुविधाओं के सेट का चयन करके प्रत्येक डेटा नमूने के लिए फ़ीचर चर की संख्या को कम करने के लिए इस अनुपयोगी एमएल विधि का उपयोग किया जाता है। यहां एक सवाल यह उठता है कि हमें आयामीता को कम करने की आवश्यकता क्यों है? इसके पीछे कारण स्पेस स्पेस जटिलता की समस्या है जो तब उत्पन्न होती है जब हम डेटा नमूनों से लाखों विशेषताओं का विश्लेषण और निकालना शुरू करते हैं। यह समस्या आम तौर पर "आयामीता के अभिशाप" को संदर्भित करती है। पीसीए (प्रिंसिपल कंपोनेंट एनालिसिस), के-निकटतम पड़ोसी और भेदभावपूर्ण विश्लेषण इस उद्देश्य के लिए कुछ लोकप्रिय एल्गोरिदम हैं।
Anomaly Detection
इस अनुपयोगी एमएल विधि का उपयोग दुर्लभ घटनाओं या टिप्पणियों की घटनाओं का पता लगाने के लिए किया जाता है जो आमतौर पर नहीं होती हैं। सीखा ज्ञान का उपयोग करके, विसंगति का पता लगाने के तरीके विसंगति या एक सामान्य डेटा बिंदु के बीच अंतर करने में सक्षम होंगे। क्लस्टरिंग, केएनएन जैसे कुछ अज्ञात एल्गोरिदम डेटा और इसकी विशेषताओं के आधार पर विसंगतियों का पता लगा सकते हैं।
अर्ध-पर्यवेक्षित शिक्षण
इस तरह के एल्गोरिदम या तरीके न तो पूरी तरह से निगरानी में होते हैं और न ही पूरी तरह से अनसुनी। वे मूल रूप से दोनों के बीच में आते हैं अर्थात पर्यवेक्षित और अनुपयोगी सीखने के तरीके। इस प्रकार के एल्गोरिदम आम तौर पर छोटे पर्यवेक्षित शिक्षण घटक का उपयोग करते हैं अर्थात पूर्व लेबल वाले एनोटेट डेटा की छोटी मात्रा और बड़े अप्रकाशित शिक्षण घटक अर्थात प्रशिक्षण के लिए बहुत सारे अनलेबेल किए गए डेटा। हम अर्ध-पर्यवेक्षित शिक्षण विधियों को लागू करने के लिए निम्नलिखित में से किसी भी दृष्टिकोण का पालन कर सकते हैं -
पहला और सरल तरीका लेबल और एनोटेट डेटा की छोटी मात्रा के आधार पर पर्यवेक्षित मॉडल का निर्माण करना है और फिर अधिक लेबल किए गए नमूनों को प्राप्त करने के लिए अनबैलेंस्ड डेटा की बड़ी मात्रा में समान लागू करके असुरक्षित मॉडल का निर्माण करना है। अब, उन पर मॉडल को प्रशिक्षित करें और प्रक्रिया को दोहराएं।
दूसरे दृष्टिकोण को कुछ अतिरिक्त प्रयासों की आवश्यकता है। इस दृष्टिकोण में, हम पहले समान डेटा नमूनों को क्लस्टर करने के लिए अनुपयोगी तरीकों का उपयोग कर सकते हैं, इन समूहों को एनोटेट कर सकते हैं और फिर मॉडल को प्रशिक्षित करने के लिए इस जानकारी के संयोजन का उपयोग कर सकते हैं।
सुदृढीकरण सीखना
ये विधियां पहले अध्ययन किए गए तरीकों से अलग हैं और बहुत कम ही उपयोग की जाती हैं। इस तरह के सीखने के एल्गोरिदम में, एक एजेंट होगा जिसे हम समय की अवधि में प्रशिक्षित करना चाहते हैं ताकि यह एक विशिष्ट वातावरण के साथ बातचीत कर सके। एजेंट पर्यावरण के साथ बातचीत करने के लिए रणनीतियों का एक सेट का पालन करेगा और फिर पर्यावरण का अवलोकन करने के बाद कार्रवाई करेगा जो पर्यावरण की वर्तमान स्थिति का संबंध है। सुदृढीकरण सीखने के तरीकों के मुख्य चरण निम्नलिखित हैं -
Step 1 - सबसे पहले, हमें कुछ शुरुआती रणनीतियों के साथ एक एजेंट तैयार करने की आवश्यकता है।
Step 2 - फिर पर्यावरण और इसकी वर्तमान स्थिति का निरीक्षण करें।
Step 3 - इसके बाद, इष्टतम नीति चुनें और पर्यावरण की वर्तमान स्थिति के बारे में सोचें और महत्वपूर्ण कार्य करें।
Step 4 - अब, एजेंट पिछले चरण में इसके द्वारा की गई कार्रवाई के अनुसार संबंधित इनाम या जुर्माना प्राप्त कर सकता है।
Step 5 - अब, यदि आवश्यक हो तो हम रणनीतियों को अपडेट कर सकते हैं।
Step 6 - अंत में, 2-5 चरणों को दोहराएं जब तक कि एजेंट को इष्टतम नीतियां सीखने और अपनाने के लिए नहीं मिला।
मशीन लर्निंग के लिए टास्क सूट किया गया
निम्नलिखित आरेख दिखाता है कि विभिन्न एमएल समस्याओं के लिए किस प्रकार का कार्य उपयुक्त है -
सीखने की क्षमता के आधार पर
सीखने की प्रक्रिया में, निम्नलिखित कुछ विधियाँ हैं जो सीखने की क्षमता पर आधारित हैं -
Batch Learning
कई मामलों में, हमारे पास एंड-टू-एंड मशीन लर्निंग सिस्टम है जिसमें हमें पूरे उपलब्ध प्रशिक्षण डेटा का उपयोग करके मॉडल को एक बार में प्रशिक्षित करने की आवश्यकता होती है। इस तरह की सीखने की विधि या एल्गोरिथ्म को कहा जाता हैBatch or Offline learning। इसे बैच या ऑफ़लाइन शिक्षा कहा जाता है क्योंकि यह एक बार की प्रक्रिया है और मॉडल को एक ही बैच में डेटा के साथ प्रशिक्षित किया जाएगा। बैच सीखने के तरीकों के मुख्य चरण निम्नलिखित हैं -
Step 1 - सबसे पहले, हमें मॉडल का प्रशिक्षण शुरू करने के लिए सभी प्रशिक्षण डेटा एकत्र करने की आवश्यकता है।
Step 2 - अब, एक बार में संपूर्ण प्रशिक्षण डेटा प्रदान करके मॉडल का प्रशिक्षण शुरू करें।
Step 3 - इसके बाद, संतोषजनक परिणाम / प्रदर्शन प्राप्त करने के बाद सीखने / प्रशिक्षण प्रक्रिया को रोक दें।
Step 4- अंत में, इस प्रशिक्षित मॉडल को उत्पादन में तैनात करें। यहां, यह नए डेटा नमूने के लिए आउटपुट की भविष्यवाणी करेगा।
ऑनलाइन सीखने
यह पूरी तरह से बैच या ऑफ़लाइन सीखने के तरीकों के विपरीत है। इन शिक्षण विधियों में, एल्गोरिथ्म को कई वृद्धिशील बैचों में प्रशिक्षण डेटा की आपूर्ति की जाती है, जिसे मिनी-बैच कहा जाता है। ऑनलाइन शिक्षण विधियों के मुख्य चरण निम्नलिखित हैं -
Step 1 - सबसे पहले, हमें मॉडल का प्रशिक्षण शुरू करने के लिए सभी प्रशिक्षण डेटा एकत्र करने की आवश्यकता है।
Step 2 - अब, एल्गोरिथ्म को प्रशिक्षण डेटा का एक मिनी-बैच प्रदान करके मॉडल का प्रशिक्षण शुरू करें।
Step 3 - अगला, हमें एल्गोरिथ्म में कई वेतन वृद्धि में प्रशिक्षण डेटा के मिनी-बैच प्रदान करने की आवश्यकता है।
Step 4 - चूंकि यह बैच लर्निंग की तरह नहीं रुकेगा इसलिए मिनी-बैचों में संपूर्ण प्रशिक्षण डेटा प्रदान करने के बाद, नए डेटा नमूने भी प्रदान करें।
Step 5 - अंत में, यह नए डेटा नमूनों के आधार पर समय की अवधि में सीखता रहेगा।
सामान्यीकरण दृष्टिकोण के आधार पर
सीखने की प्रक्रिया में, अनुसरण कुछ तरीके हैं जो सामान्यीकरण दृष्टिकोण पर आधारित हैं -
सीखने पर आधारित उदाहरण
इंस्टेंस आधारित सीखने की विधि उपयोगी तरीकों में से एक है जो इनपुट डेटा के आधार पर सामान्यीकरण करके एमएल मॉडल का निर्माण करती है। यह उस तरह से पहले से अध्ययन किए गए सीखने के तरीकों के विपरीत है जिसमें इस तरह के सीखने में एमएल सिस्टम के साथ-साथ ऐसे तरीके भी शामिल हैं जो कच्चे डेटा का उपयोग करते हैं और प्रशिक्षण डेटा पर एक स्पष्ट मॉडल के निर्माण के बिना नए डेटा नमूनों के लिए परिणाम निकालने के लिए खुद को इंगित करते हैं।
सरल शब्दों में, उदाहरण-आधारित शिक्षण मूल रूप से इनपुट डेटा बिंदुओं को देखकर काम करना शुरू करता है और फिर एक समानता मीट्रिक का उपयोग करके, यह नए डेटा बिंदुओं को सामान्य और भविष्यवाणी करेगा।
मॉडल आधारित लर्निंग
मॉडल आधारित शिक्षण विधियों में, विभिन्न मॉडल मापदंडों के आधार पर बनाए जाने वाले एमएल मॉडल पर एक पुनरावृत्ति प्रक्रिया होती है, जिसे हाइपरपरमेटर्स कहा जाता है और जिसमें इनपुट डेटा का उपयोग सुविधाओं को निकालने के लिए किया जाता है। इस शिक्षण में, विभिन्न मॉडल सत्यापन तकनीकों के आधार पर हाइपरपरमेटर्स को अनुकूलित किया जाता है। इसलिए हम कह सकते हैं कि मॉडल आधारित शिक्षण विधियां सामान्यीकरण की दिशा में अधिक पारंपरिक एमएल दृष्टिकोण का उपयोग करती हैं।