तिरछे लक्ष्य और केवल कुछ उच्च मूल्यों के साथ एक प्रतिगमन समस्या को कैसे संभालना है?

Aug 17 2020

मैं वर्तमान में तिरछी लक्ष्य चर (नीचे प्रस्तुत) के साथ एक प्रतिगमन समस्या का सामना कर रहा हूं।

स्वाभाविक रूप से, मेरा पहला विचार प्राकृतिक लघुगणक के साथ लक्ष्य को बदलना था क्योंकि यह शायद रेखीय प्रतिगमन या निर्णय-ट्री-आधारित एल्गोरिदम दोनों में मदद करेगा। दूसरा विचार यह है कि एन समूहों में लक्षित बीएनडी के साथ स्तरीकृत के-गुना क्रॉस-वैधीकरण के समान एक सत्यापन योजना तैयार की जाए। हालांकि, मेरी चिंता यह है कि मेरे पास केवल कुछ उच्चतम मूल्य हैं:

इसलिए, मेरा परीक्षण सेट और सभी सत्यापन सेट त्रुटि अत्यधिक निर्भर हैं अगर इन 4 चरम मूल्यों में से एक को उनके भीतर रखा गया है या नहीं। यह विश्वसनीय वास्तविक त्रुटि अनुमान प्राप्त करना कठिन बनाता है।

क्या कुछ और है जो मैं उस मुद्दे को संभालने के लिए कर सकता हूं?

जवाब

1 PredictedLife Aug 18 2020 at 02:50

आप उपयुक्त परिवर्तन द्वारा सममितीय वितरण (ओं) को उत्पन्न कर सकते हैं: आपका वितरण मुख्य रूप से सही-तिरछा है, इसलिए लॉग 10 परिवर्तन की आवश्यकता है।

आप ऑटो-बिनिंग विधि का भी उपयोग कर सकते हैं और इसे स्पाइक्स के लिए डमी वैरिएबल के साथ जोड़ सकते हैं।

यदि आप एक सुविधा का चयन करते हैं, तो सीखने वाला स्वचालित रूप से सबसे महत्वपूर्ण विशेषताओं का चयन करेगा। XGBoost जैसे शिक्षार्थी स्वचालित रूप से बहुस्तरीयता का ध्यान रखते हैं।