तिरछे लक्ष्य और केवल कुछ उच्च मूल्यों के साथ एक प्रतिगमन समस्या को कैसे संभालना है?
मैं वर्तमान में तिरछी लक्ष्य चर (नीचे प्रस्तुत) के साथ एक प्रतिगमन समस्या का सामना कर रहा हूं।
स्वाभाविक रूप से, मेरा पहला विचार प्राकृतिक लघुगणक के साथ लक्ष्य को बदलना था क्योंकि यह शायद रेखीय प्रतिगमन या निर्णय-ट्री-आधारित एल्गोरिदम दोनों में मदद करेगा। दूसरा विचार यह है कि एन समूहों में लक्षित बीएनडी के साथ स्तरीकृत के-गुना क्रॉस-वैधीकरण के समान एक सत्यापन योजना तैयार की जाए। हालांकि, मेरी चिंता यह है कि मेरे पास केवल कुछ उच्चतम मूल्य हैं:
इसलिए, मेरा परीक्षण सेट और सभी सत्यापन सेट त्रुटि अत्यधिक निर्भर हैं अगर इन 4 चरम मूल्यों में से एक को उनके भीतर रखा गया है या नहीं। यह विश्वसनीय वास्तविक त्रुटि अनुमान प्राप्त करना कठिन बनाता है।
क्या कुछ और है जो मैं उस मुद्दे को संभालने के लिए कर सकता हूं?
जवाब
आप उपयुक्त परिवर्तन द्वारा सममितीय वितरण (ओं) को उत्पन्न कर सकते हैं: आपका वितरण मुख्य रूप से सही-तिरछा है, इसलिए लॉग 10 परिवर्तन की आवश्यकता है।
आप ऑटो-बिनिंग विधि का भी उपयोग कर सकते हैं और इसे स्पाइक्स के लिए डमी वैरिएबल के साथ जोड़ सकते हैं।
यदि आप एक सुविधा का चयन करते हैं, तो सीखने वाला स्वचालित रूप से सबसे महत्वपूर्ण विशेषताओं का चयन करेगा। XGBoost जैसे शिक्षार्थी स्वचालित रूप से बहुस्तरीयता का ध्यान रखते हैं।