मशीन लर्निंग में फ़ीचर चयन: प्रेरणा

Nov 24 2022
यह लघु लेख फीचर चयन तकनीकों की व्याख्या करने वाली श्रृंखला का पहला लेख है। मैंने एक दोस्ताना परिचय के साथ शुरुआत की है और फीचर चयन प्रक्रिया के शक्तिशाली कारणों को प्रस्तुत किया है।

यह लघु लेख फीचर चयन तकनीकों की व्याख्या करने वाली श्रृंखला का पहला लेख है। मैंने एक दोस्ताना परिचय के साथ शुरुआत की है और फीचर चयन प्रक्रिया के शक्तिशाली कारणों को प्रस्तुत किया है। आने वाले लेखों में, मैं प्रत्येक सुविधा चयन विधि का विस्तार से उल्लेख करने जा रहा हूँ।

फ़ीचर चयन मशीन लर्निंग एल्गोरिदम बनाने के लिए डेटा सेट में एक स्तर की कुल सुविधाओं से प्रासंगिक सुविधाओं (चर, भविष्यवक्ता) के सबसेट का चयन करने की प्रक्रिया है। एक प्रारंभिक डेटा सेट को देखते हुए जिसमें आमतौर पर बड़ी संख्या में चर होते हैं, हम भविष्यवाणियों के समय महत्वपूर्ण सुविधाओं के पूल का चयन करने के लिए क्या कर सकते हैं? ऐसी कई प्रक्रियाएँ या तकनीकें हैं जिन्हें हम सुविधा चयन की प्रक्रिया के भाग के रूप में लागू कर सकते हैं।

फीचर चयन तकनीकों में गोता लगाने से पहले, हम शुरुआत करने के लिए सुविधाओं का चयन क्यों करते हैं? यहाँ कुछ कारण दिए गए हैं।

  • सरल मॉडल की व्याख्या करना आसान होता है। मॉडल के उपयोगकर्ताओं के लिए 100 चर का उपयोग करने वाले मॉडल के आउटपुट की तुलना में 10 चर का उपयोग करने वाले मॉडल के आउटपुट को समझना आसान है।
  • कम प्रशिक्षण समय। मशीन लर्निंग मॉडल बनाने के लिए उपयोग किए जाने वाले चर की संख्या कम करने से कम्प्यूटेशनल लागत कम हो जाती है और इसलिए मॉडल निर्माण में तेजी आती है। लेकिन अधिक महत्वपूर्ण रूप से सरल मॉडल, अनुप्रयोगों की तुलना में तेजी से स्कोर भी करते हैं, जो विशेष रूप से महत्वपूर्ण है यदि मॉडल लाइव वातावरण में है जहां निर्णय लेने की आवश्यकता होती है।
  • ओवरफिटिंग को कम करके बढ़ाया सामान्यीकरण। बहुत बार, बहुत से चर शोर होते हैं यदि कोई भविष्य कहनेवाला मूल्य नहीं है। मशीन लर्निंग मॉडल हालांकि इस शोर से सीखते हैं जो ओवरफिटिंग और सामान्यीकरण को कम करता है। अप्रासंगिक शोर सुविधाओं को समाप्त करके हम मशीन लर्निंग मॉडल के सामान्यीकरण में काफी सुधार कर सकते हैं।
  • सॉफ्टवेयर डेवलपर्स द्वारा कार्यान्वित करना आसान है। जब मशीन लर्निंग मॉडल तैनात किया जाता है, तो अक्सर सॉफ्टवेयर डेवलपर्स को उन चरों को कॉल करने के लिए कोड लिखने की आवश्यकता होती है, जिन्हें आउटपुट देने के लिए मॉडल में फीड करने की आवश्यकता होती है। 400 वेरिएबल्स की तुलना में 10 से 50 वेरिएबल्स के लिए कोड लिखना बहुत तेज है। इसके अलावा, कम कोड बग के लिए कम प्रवण होता है और इसलिए एक सुरक्षित वातावरण प्रदान करता है।
  • मॉडल उपयोग के दौरान डेटा त्रुटियों का कम जोखिम। अक्सर कंपनियां तीसरे पक्ष के डेटा पर कॉल पर भरोसा करती हैं जिससे वे मशीन लर्निंग मॉडल को पास करने के लिए वेरिएबल्स का चयन करेंगी। मशीन लर्निंग मॉडल में उपयोग किए जाने वाले वेरिएबल्स की संख्या को कम करने से व्यवसाय के डेटा संग्रह और तीसरे पक्ष के भंडारण में त्रुटियों के जोखिम में कमी आती है और डेटा संग्रह में संभावित त्रुटियां भी होती हैं जो उसी व्यवसाय के भीतर उत्पन्न हो सकती हैं।
  • परिवर्तनीय अतिरेक। डेटा सेट के भीतर बहुत बार सुविधाएँ अत्यधिक सहसंबद्ध होती हैं। अत्यधिक सहसंबद्ध विशेषताएं समान जानकारी का सार प्रदान करती हैं। इसलिए वे एक तरह से बेमानी हैं। हम जानकारी खोए बिना एक को रख सकते हैं और बाकी सभी को हटा सकते हैं।
  • उच्च-आयामी स्थानों में खराब शिक्षण व्यवहार। मशीन लर्निंग मॉडल का प्रदर्शन विशेष रूप से ट्री-आधारित एल्गोरिदम में कम फीचर स्पेस द्वारा समर्थित है। इसका अर्थ है, दूसरे शब्दों में, उच्च आयाम ट्री-आधारित विधियों में खराब प्रदर्शन का कारण बनते हैं, और इसलिए फीचर स्पेस को कम करने से अधिक मजबूत और भविष्य कहनेवाला मॉडल बनाने में मदद मिलती है।

एक सुविधा चयन एल्गोरिथ्म को नए फीचर सबसेट के प्रस्ताव के लिए एक खोज तकनीक के संयोजन के रूप में देखा जा सकता है, साथ ही एक विकास माप के साथ जो विभिन्न फीचर सबसेट को स्कोर करता है। आदर्श रूप से, एक फीचर चयन विधि फीचर संयोजनों के सभी संभावित उपसमूहों के माध्यम से खोज करेगी जो किसी दिए गए डेटा सेट से प्राप्त की जा सकती हैं, और सर्वश्रेष्ठ मशीन लर्निंग मॉडल प्रदर्शन का उत्पादन करने वाले फीचर संयोजन को ढूंढती हैं। व्यवहार में, कम्प्यूटेशनल लागत के कारण यह आमतौर पर एक विकल्प नहीं है। इसके अलावा, सुविधाओं के विभिन्न उपसमुच्चय विभिन्न मशीन लर्निंग एल्गोरिदम के लिए एक इष्टतम प्रदर्शन उत्पन्न कर सकते हैं। इसका मतलब यह है कि सुविधाओं का केवल एक सबसेट नहीं है, बल्कि मशीन लर्निंग एल्गोरिथम के आधार पर संभावित रूप से इष्टतम सुविधाओं के कई सबसेट हैं जिनका हम उपयोग करना चाहते हैं। इसलिए पूरे साल, सुविधाओं का चयन करने के लिए कई अलग-अलग तरीके विकसित किए गए हैं ताकि जितना संभव हो उतने चेतावनियों और सीमाओं को समायोजित करने का प्रयास किया जा सके। इस लेख श्रृंखला के दौरान, मैं फीचर चयन के लिए कई अलग-अलग तरीकों का वर्णन करूंगा, फायदे और नुकसान क्या हैं, और व्यवसाय डेटा सेट उदाहरणों का उपयोग करके उन्हें कैसे लागू किया जाए।