प्रतिगमन विश्लेषण के लिए क्रॉस सत्यापन का उपयोग क्यों करें?

Aug 18 2020

अपने काम में मैं भविष्यवाणी के उद्देश्य के साथ एक बहुराष्ट्रीय लॉजिस्टिक प्रतिगमन फिट करने की कोशिश कर रहा हूं। मैं वर्तमान में बार-बार स्तरीकृत K Folds के साथ क्रॉस सत्यापन लागू कर रहा हूं, लेकिन मेरे पास अभी भी उस विधि के बारे में कुछ प्रश्न हैं जिन्हें मैंने पहले उत्तर नहीं दिया है।

क्या यह प्रतिगमन का परीक्षण करने के लिए क्रॉस सत्यापन का उपयोग करने के लिए समझ में आता है, इस मामले में जहां मैं किसी भी हाइपरपरमेटर्स को ट्यून नहीं कर रहा हूं? मैंने बहुत कुछ देखा है कि हाइपरपरमीटर ट्यूनिंग के लिए क्रॉस वैल सबसे उपयोगी है।

मैंने अपना मॉडल (समान भविष्यवक्ताओं के साथ प्रतिगमन) को 10 गुना के साथ 3 गुना दोहराया, और मुझे प्रत्येक गुना में वास्तव में अच्छे मैट्रिक्स मिलते हैं (0.95 का आरओसी, 0.94 का सूक्ष्म औसत परिशुद्धता-रिकॉल, और उन पंक्तियों के साथ), जो मेरे सुझाव देते हैं मॉडल उचित रूप से भेदभाव कर रहा है और अच्छी तरह से भविष्यवाणी करने में सक्षम है। क्या मैं आश्वस्त हो सकता हूं कि मेरा प्रतिगमन ओवरफिटिंग नहीं है? यही है, कि जिन चरों को मैंने भविष्यवाणियों के रूप में चलाने के लिए चुना था, वे डेटा को ओवरफिट नहीं करेंगे।

अंत में, मुझे यकीन नहीं है कि मैं तकनीकी रूप से अपने विश्लेषण को समाप्त कर सकता हूं, या फिर मैं सभी समान भविष्यवक्ताओं के साथ "अंतिम मॉडल" बना सकता हूं और डेटा के बड़े हिस्से (यदि सभी नहीं) में प्रशिक्षित किया गया है। मुझे लगता है कि अगर कंपनी वास्तव में इस मॉडल को चलाना चाहती है, तो उन्हें सही भविष्यवाणी करने के लिए "अंतिम फिट" की आवश्यकता होगी? क्या मुझे इस अंतिम मॉडल के लिए किसी अन्य ट्रेन-टेस्ट विभाजन का उपयोग करना चाहिए?

आपकी सहायता की बहुत सराहना की गयी!

जवाब

1 J.C.Wahl Aug 18 2020 at 16:56

क्रॉस सत्यापन का उपयोग कई कार्यों के लिए किया जा सकता है: हाइपरपैरेट ट्यूनिंग, नमूना त्रुटि के बाहर आपकी स्थिति कितनी स्थिर है, लेकिन मैं कहूंगा कि यह विभिन्न मॉडलों की तुलना करने के लिए सबसे उपयोगी है ।

उदाहरण के लिए, यदि आपके पास दो मॉडल हैं, और आप उन दोनों पर क्रॉस सत्यापन चलाते हैं, तो आप विभिन्न सिलवटों के प्रदर्शन की तुलना कर सकते हैं और देख सकते हैं कि क्या एक मॉडल दूसरे से बेहतर प्रदर्शन करता है। ऐसा करने से, 10 गुना कहो, आपको केवल एक परीक्षण सेट (यानी 1-गुना सत्यापन) का उपयोग करने की तुलना में नमूना प्रदर्शन के बाहर का अधिक मजबूत अनुमान मिलता है।

आप पा सकते हैं कि एक अधिक जटिल मॉडल 0.97 का औसत एयूसी प्राप्त करने में सक्षम है, या हो सकता है कि ओवरफिट हो और आपको 0.9 का बदतर एयूसी दे। आप केवल यह कहने में सक्षम हैं कि क्या कोई मॉडल ओवरफिट करता है यदि आप वास्तव में इसे एक सरल मॉडल के साथ नमूने से तुलना करते हैं।

अपने अंतिम प्रश्न के लिए: आपके द्वारा क्रॉस-वेलिडेशन करने के बाद सबसे अच्छा मॉडल मिला है, और आपने तय किया है कि यह मॉडल उत्पादन में उपयोग होने वाला है, आपको उपलब्ध सभी डेटा पर मॉडल को प्रशिक्षित करना चाहिए, ताकि आपको सबसे सटीक अनुमान मिलें मुमकिन।