मशीन लर्निंग - पर्यवेक्षित
पर्यवेक्षित शिक्षण प्रशिक्षण मशीनों में शामिल सीखने के महत्वपूर्ण मॉडलों में से एक है। यह अध्याय उसी के बारे में विस्तार से बात करता है।
सुपरवाइज्ड लर्निंग के लिए एल्गोरिदम
पर्यवेक्षित सीखने के लिए कई एल्गोरिदम उपलब्ध हैं। पर्यवेक्षित अधिगम के कुछ व्यापक रूप से उपयोग किए गए एल्गोरिदम नीचे दिए गए हैं -
- k- निकटतम पड़ोसी
- निर्णय के पेड़
- भोले भाले
- रसद प्रतिगमन
- समर्थन वेक्टर मशीन
जैसा कि हम इस अध्याय में आगे बढ़ते हैं, आइए हम प्रत्येक एल्गोरिदम के बारे में विस्तार से चर्चा करें।
k- निकटतम पड़ोसी
के-नियर नेबर्स, जिसे बस केएनएन कहा जाता है, एक सांख्यिकीय तकनीक है, जिसका उपयोग वर्गीकरण और नियमित समस्याओं के समाधान के लिए किया जा सकता है। आइए हम kNN का उपयोग करके किसी अज्ञात वस्तु को वर्गीकृत करने के मामले पर चर्चा करते हैं। नीचे दी गई छवि में दिखाए अनुसार वस्तुओं के वितरण पर विचार करें -
स्रोत:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
आरेख तीन प्रकार की वस्तुओं को दर्शाता है, जो लाल, नीले और हरे रंगों में चिह्नित हैं। जब आप उपरोक्त डेटासेट पर kNN क्लासिफायर चलाते हैं, तो प्रत्येक प्रकार की वस्तु के लिए सीमाओं को नीचे दर्शाया गया है -
स्रोत:
https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm
अब, एक नई अज्ञात वस्तु पर विचार करें जिसे आप लाल, हरे या नीले रंग में वर्गीकृत करना चाहते हैं। यह नीचे दिए गए चित्र में दर्शाया गया है।
जैसा कि आप इसे नेत्रहीन देखते हैं, अज्ञात डेटा बिंदु नीले ऑब्जेक्ट्स के एक वर्ग के अंतर्गत आता है। गणितीय रूप से, यह डेटा सेट में हर दूसरे बिंदु के साथ इस अज्ञात बिंदु की दूरी को मापकर निष्कर्ष निकाला जा सकता है। जब आप ऐसा करेंगे, तो आपको पता चलेगा कि इसके अधिकांश पड़ोसी नीले रंग के हैं। लाल और हरे रंग की वस्तुओं की औसत दूरी निश्चित रूप से नीली वस्तुओं की औसत दूरी से अधिक होगी। इस प्रकार, इस अज्ञात वस्तु को नीले वर्ग से संबंधित के रूप में वर्गीकृत किया जा सकता है।
केएनएन एल्गोरिथ्म का उपयोग प्रतिगमन समस्याओं के लिए भी किया जा सकता है। केएनएन एल्गोरिथ्म अधिकांश एमएल पुस्तकालयों में तैयार-से-उपयोग के रूप में उपलब्ध है।
निर्णय के पेड़
फ्लोचार्ट प्रारूप में एक साधारण निर्णय ट्री नीचे दिखाया गया है -
आप इस फ़्लोचार्ट के आधार पर अपने इनपुट डेटा को वर्गीकृत करने के लिए एक कोड लिखेंगे। फ़्लोचार्ट आत्म-व्याख्यात्मक और तुच्छ है। इस परिदृश्य में, आप इसे पढ़ने के लिए आने वाले ईमेल को वर्गीकृत करने का प्रयास कर रहे हैं।
वास्तव में, निर्णय पेड़ बड़े और जटिल हो सकते हैं। इन पेड़ों को बनाने और उन्हें पार करने के लिए कई एल्गोरिदम उपलब्ध हैं। मशीन लर्निंग के प्रति उत्साही के रूप में, आपको निर्णय पेड़ों को बनाने और उन्हें फंसाने की इन तकनीकों को समझने और मास्टर करने की आवश्यकता है।
भोले भाले
Naive Bayes का उपयोग classifiers बनाने के लिए किया जाता है। मान लीजिए कि आप एक फलों की टोकरी से विभिन्न प्रकार के फलों को छांटना (वर्गीकृत) करना चाहते हैं। आप किसी फल के रंग, आकार और आकार जैसी सुविधाओं का उपयोग कर सकते हैं, उदाहरण के लिए, कोई भी फल जो लाल रंग का है, आकार में गोल है और लगभग 10 सेमी व्यास का है, इसे Apple माना जा सकता है। इसलिए मॉडल को प्रशिक्षित करने के लिए, आप इन सुविधाओं का उपयोग करेंगे और इस संभावना का परीक्षण करेंगे कि दी गई सुविधा वांछित बाधाओं से मेल खाती है। अलग-अलग सुविधाओं की संभावनाओं को एक संभावना पर पहुंचने के लिए संयुक्त किया जाता है कि एक दिया गया फल एक सेब है। Naive Bayes को आमतौर पर वर्गीकरण के लिए कम संख्या में प्रशिक्षण डेटा की आवश्यकता होती है।
रसद प्रतिगमन
निम्नलिखित आरेख को देखें। यह XY विमान में डेटा बिंदुओं के वितरण को दर्शाता है।
आरेख से, हम हरे बिंदुओं से लाल बिंदुओं के पृथक्करण का निरीक्षण कर सकते हैं। आप इन बिंदुओं को अलग करने के लिए एक सीमा रेखा खींच सकते हैं। अब, एक नए डेटा बिंदु को वर्गीकृत करने के लिए, आपको बस यह निर्धारित करने की आवश्यकता होगी कि बिंदु किस तरफ है।
समर्थन वेक्टर मशीन
डेटा के निम्नलिखित वितरण को देखें। यहां डेटा के तीन वर्गों को रैखिक रूप से अलग नहीं किया जा सकता है। सीमा वक्र गैर-रैखिक हैं। ऐसे मामले में, वक्र का समीकरण ढूंढना एक जटिल काम बन जाता है।
स्रोत: http://uc-r.github.io/svm
समर्थन वेक्टर मशीनें (SVM) ऐसी स्थितियों में पृथक्करण सीमाओं को निर्धारित करने में काम आती हैं।