Scikit सीखें - K-निकटतम पड़ोसी (KNN)

यह अध्याय आपको स्केलेरन में निकटतम पड़ोसी तरीकों को समझने में मदद करेगा।

पड़ोसी आधारित शिक्षण पद्धति दोनों प्रकार की होती है supervised तथा unsupervised. पर्यवेक्षित पड़ोसी आधारित शिक्षा का उपयोग दोनों वर्गीकरण के साथ-साथ प्रतिगमन भविष्य कहनेवाला समस्याओं के लिए भी किया जा सकता है, लेकिन इसका उपयोग मुख्य रूप से उद्योग में वर्गीकरण की भविष्य कहनेवाला समस्याओं के लिए किया जाता है।

पड़ोसियों के सीखने के तरीकों में एक विशेष प्रशिक्षण चरण नहीं है और वर्गीकरण के दौरान प्रशिक्षण के लिए सभी डेटा का उपयोग करता है। यह अंतर्निहित डेटा के बारे में कुछ भी नहीं मानता है। यही कारण है कि वे प्रकृति में आलसी और गैर-पैरामीट्रिक हैं।

निकटतम पड़ोसी विधियों के पीछे मुख्य सिद्धांत है -

  • नए डेटा बिंदु के लिए दूरी में प्रशिक्षण नमूनों की अलमारी की पूर्वनिर्धारित संख्या का पता लगाने के लिए

  • प्रशिक्षण नमूनों की इन संख्याओं से लेबल का अनुमान लगाएं।

यहाँ, नमूनों की संख्या K- निकटतम पड़ोसी शिक्षण की तरह एक उपयोगकर्ता-परिभाषित स्थिरांक हो सकती है या त्रिज्या-आधारित पड़ोसी शिक्षण में बिंदु के स्थानीय घनत्व के आधार पर भिन्न हो सकती है।

sklearn.neighbors मॉड्यूल

स्किकिट-सीखो sklearn.neighborsमॉड्यूल जो दोनों के लिए अपरिष्कृत और पर्यवेक्षित पड़ोसी आधारित शिक्षण विधियों के लिए कार्यक्षमता प्रदान करता है। इनपुट के रूप में, इस मॉड्यूल की कक्षाएं या तो NumPy सरणियों को संभाल सकती हैं याscipy.sparse मैट्रिक्स।

एल्गोरिदम के प्रकार

विभिन्न प्रकार के एल्गोरिदम जो पड़ोसी-आधारित तरीकों के कार्यान्वयन में उपयोग किए जा सकते हैं, वे निम्नानुसार हैं -

पाशविक बल

डेटासेट में सभी जोड़े बिंदुओं के बीच दूरियों का ब्रूट-बल अभिकलन सबसे अच्छा पड़ोसी खोज कार्यान्वयन प्रदान करता है। गणितीय रूप से, डी आयामों में एन नमूनों के लिए, जानवर-बल दृष्टिकोण तराजू के रूप में0[DN2]

छोटे डेटा नमूनों के लिए, यह एल्गोरिथ्म बहुत उपयोगी हो सकता है, लेकिन यह तब और जब तक नमूनों की संख्या बढ़ती है, तब तक यह संभव हो जाता है। ब्रूट फोर्स पड़ोसी खोज को कीवर्ड लिखकर सक्षम किया जा सकता हैalgorithm=’brute’

केडी का पेड़

पेड़-आधारित डेटा संरचनाओं में से एक, जिसे ब्रूट-फोर्स दृष्टिकोण की कम्प्यूटेशनल अक्षमताओं को संबोधित करने के लिए आविष्कार किया गया है, केडी ट्री डेटा संरचना है। मूल रूप से, केडी वृक्ष एक द्विआधारी वृक्ष संरचना है जिसे के-आयामी वृक्ष कहा जाता है। यह डेटा अक्षों के साथ पैरामीटर स्थान को पुन: विभाजित करता है, इसे नेस्टेड ऑर्थोग्राफ़िक क्षेत्रों में विभाजित किया जाता है, जिसमें डेटा बिंदु भरे जाते हैं।

लाभ

केडी ट्री एल्गोरिथ्म के कुछ फायदे निम्नलिखित हैं -

Construction is fast - जैसा कि विभाजन केवल डेटा अक्षों के साथ किया जाता है, केडी पेड़ का निर्माण बहुत तेज है।

Less distance computations- क्वेरी बिंदु के निकटतम पड़ोसी को निर्धारित करने के लिए यह एल्गोरिथ्म बहुत कम दूरी की गणना करता है। ये केवल लेता है[ ()] दूरी की गणना।

नुकसान

Fast for only low-dimensional neighbor searches- यह कम-आयामी (डी <20) पड़ोसी खोजों के लिए बहुत तेज़ है लेकिन जब और डी बढ़ते हैं तो यह अक्षम हो जाता है। चूंकि विभाजन केवल डेटा अक्षों के साथ किया जाता है,

केडी ट्री पड़ोसी खोजों को कीवर्ड लिखकर सक्षम किया जा सकता है algorithm=’kd_tree’

बॉल ट्री

जैसा कि हम जानते हैं कि केडी ट्री उच्च आयामों में अक्षम है, इसलिए, केडी ट्री की इस अक्षमता को दूर करने के लिए, बॉल ट्री डेटा संरचना विकसित की गई थी। गणितीय रूप से, यह डेटा को पुन: विभाजित करता है, एक केन्द्रक C और त्रिज्या r द्वारा परिभाषित नोड्स में, इस तरह से नोड में प्रत्येक बिंदु केन्द्रक द्वारा परिभाषित हाइपर-क्षेत्र के भीतर स्थित होता है।C और त्रिज्या r। यह नीचे दी गई त्रिभुज असमानता का उपयोग करता है, जो पड़ोसी खोज के लिए उम्मीदवारों के अंकों की संख्या को कम करता है

$$ \ arrowvert X + Y \ arrowvert \ leq \ arrowvert X \ arrowvert + \ arrowvert Y \ arrowvert $ $

लाभ

बॉल ट्री एल्गोरिथ्म के कुछ फायदे निम्नलिखित हैं -

Efficient on highly structured data - बॉल ट्री ट्री के रूप में हाइपर-क्षेत्र के घोंसले की श्रृंखला में डेटा का विभाजन होता है, यह अत्यधिक संरचित डेटा पर कुशल है।

Out-performs KD-tree - बॉल ट्री उच्च आयामों में केडी ट्री को बाहर करता है क्योंकि इसमें बॉल ट्री नोड्स की गोलाकार ज्यामिति होती है।

नुकसान

Costly - अति-आंचल के घोंसले की श्रृंखला में डेटा का विभाजन इसके निर्माण को बहुत महंगा बनाता है।

बॉल ट्री पड़ोसी खोजों को कीवर्ड लिखकर सक्षम किया जा सकता है algorithm=’ball_tree’

निकटतम पड़ोसी एल्गोरिथम चुनना

किसी दिए गए डेटासेट के लिए एक इष्टतम एल्गोरिथ्म का चुनाव निम्नलिखित कारकों पर निर्भर करता है -

नमूनों की संख्या (एन) और आयाम (डी)

निकटतम पड़ोसी एल्गोरिदम को चुनते समय इन सबसे महत्वपूर्ण कारकों पर विचार किया जाना चाहिए। यह नीचे दिए गए कारणों की वजह से है -

  • Brute Force algorithm का क्वेरी समय O [DN] के रूप में बढ़ता है।

  • बॉल ट्री एल्गोरिथ्म का क्वेरी समय O [D लॉग (N)] के रूप में बढ़ता है।

  • केडी ट्री एल्गोरिथ्म का क्वेरी समय डी के साथ एक अजीब तरीके से बदलता है जिसे चिह्नित करना बहुत मुश्किल है। जब डी <20, लागत हे [डी लॉग (एन)] और यह एल्गोरिथ्म बहुत कुशल है। दूसरी ओर, यह D> 20 के मामले में अक्षम है क्योंकि लागत लगभग O [DN] तक बढ़ जाती है।

डेटा संरचना

एक अन्य कारक जो इन एल्गोरिदम के प्रदर्शन को प्रभावित करता है, डेटा की आंतरिक गतिशीलता या डेटा की दुर्लभता है। ऐसा इसलिए है क्योंकि बॉल ट्री और केडी ट्री एल्गोरिदम का क्वेरी समय इससे काफी प्रभावित हो सकता है। जबकि, Brute Force एल्गोरिथम का क्वेरी समय डेटा संरचना से अपरिवर्तित है। आम तौर पर, बॉल ट्री और केडी ट्री एल्गोरिदम, छोटे आंतरिक आयाम के साथ विरल डेटा पर प्रत्यारोपित होने पर तेज क्वेरी समय पैदा करते हैं।

पड़ोसियों की संख्या (k)

क्वेरी बिंदु के लिए अनुरोध किए गए पड़ोसियों (के) की संख्या बॉल ट्री और केडी ट्री एल्गोरिदम के क्वेरी समय को प्रभावित करती है। जैसे-जैसे पड़ोसी (के) की संख्या बढ़ती जाती है उनका क्वेरी समय धीमा होता जाता है। जबकि Brute Force का क्वेरी समय k के मान से अप्रभावित रहेगा।

क्वेरी बिंदुओं की संख्या

क्योंकि, उन्हें निर्माण चरण की आवश्यकता होती है, केडी ट्री और बॉल ट्री एल्गोरिदम दोनों प्रभावी होंगे यदि बड़ी संख्या में क्वेरी पॉइंट हैं। दूसरी ओर, यदि क्वेरी बिंदुओं की एक छोटी संख्या है, तो ब्रूट फोर्स एल्गोरिथ्म केडी पेड़ और बॉल ट्री एल्गोरिदम से बेहतर प्रदर्शन करता है।