लॉजिस्टिक रिग्रेशन मॉडल में रैखिकता धारणा के उल्लंघन के मामले में समाधान? (संभवतः आर में)
मुझे अपने लॉजिस्टिक रिग्रेशन के साथ समस्या है जो मैंने सेट की और मुझे उम्मीद है कि कोई मेरी मदद कर सकता है। (मैं आर के साथ काम कर रहा हूं)
मेरा डेटा प्रति घंटा मानों पर आधारित है। आश्रित चर एक द्विस्वभाव चर (1 या 0) है। मॉडल में 30 मीट्रिक स्वतंत्र चर शामिल हैं (उनमें से 9 में सकारात्मक और नकारात्मक दोनों अवलोकन हैं)।
अब मेरी समस्या: लॉजिस्टिक रिग्रेशन की एक धारणा यह है कि परिणाम के लॉगिट और प्रत्येक स्वतंत्र मीट्रिक चर के बीच एक रैखिक संबंध है। मेरे सभी मॉडलों में इस धारणा का उल्लंघन किया जाता है। (लॉजिस्टिक रिग्रेशन की अन्य सभी मान्यताओं का उल्लंघन नहीं किया जाता है)।
इसे जांचने के लिए, मैंने कई बार बॉक्स-टिडवेल परीक्षण लागू किया। एक बार एक लॉजिस्टिक रिग्रेशन में सभी चर के साथ, जहां मैंने स्वतंत्र चर पर मूल आश्रित चर और स्वतंत्र चर के संबंधित लघुगणकीय परिवर्तन के साथ स्वतंत्र चर के उत्पाद को पुनः प्राप्त किया।
(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))
इसके अलावा मैंने boxTidwell(model$linear.predictors ~ independent variable)
प्रत्येक चर के लिए आर फ़ंक्शन के साथ रैखिकता धारणा का परीक्षण अलग से किया। लगभग सभी चर के लिए, परीक्षण ने महत्व दिखाया और इस प्रकार मॉडल धारणा का उल्लंघन हुआ। स्वतंत्र चर के कई परिवर्तनों ने भी मदद नहीं की। इसके अतिरिक्त, मेरे मॉडल होसमेर-लेमेशो परीक्षण में विफल रहे।
मुझे पता है कि अगर मैं मीट्रिक स्वतंत्र चर को श्रेणीबद्ध चर में बदल दूं तो मैं इस धारणा के आसपास पहुंच सकता हूं। हालांकि, मैं इससे बचना चाहूंगा। मैं यह भी पढ़ता हूं कि मैं समस्या को स्प्लिन्स की कार्यप्रणाली से सामना कर सकता हूं। दुर्भाग्य से मुझे यह समझाने वाला कोई साहित्य नहीं मिला। विशेष रूप से एक लॉजिस्टिक मॉडल के अनुमान के लिए नहीं।
अब मैं यह जानना चाहूंगा कि क्या कोई कृपया यहां मेरी मदद कर सकता है।
क्या इस धारणा का उल्लंघन करने का मतलब है कि मुझे इस मॉडल का उपयोग करने की अनुमति नहीं है और इस प्रकार परिणाम गलत हो सकते हैं? (मैं मॉडल को भविष्य कहनेवाला या पूर्वानुमान मॉडल के रूप में उपयोग नहीं करना चाहता, लेकिन केवल डेटा की समयावधि के बारे में समझाने / वर्णन करने के लिए।)
मैं अपनी समस्या को हल करने के लिए स्प्लिन की कार्यप्रणाली कैसे लागू करूं? मैं परिणामों की व्याख्या कैसे करूं? (यदि ये स्पष्टीकरण R- कोड द्वारा समर्थित होते हैं तो यह मुझे बहुत मदद करेगा।)
जवाब
कई बिंदु:
होसमेर-लेमेशो परीक्षण अप्रचलित माना जाता है: लॉजिस्टिक रिग्रेशन के लिए होस्मेर-लेमेशो बनाम एआईसी
रैखिकता धारणा का परीक्षण करने के बजाय, प्रतिगमन विभाजन का सीधे उपयोग करें ताकि आपको उस धारणा की आवश्यकता न हो। इस साइट पर कई उदाहरण हैं (ध्यान दें कि लॉजिस्टिक रिग्रेशन में स्प्लिन का उपयोग अन्य रिग्रेशन मॉडल की तरह ही काम करता है) किसी समीकरण के दाईं ओर इस्तेमाल किए जाने पर स्प्लिन कैसे काम करता है? , मैं कैसे चिकनी तख़्ता / शतरंज प्रतिगमन का एक पी-मूल्य पाते हैं?
एक विकल्प गम का (सामान्यीकृत योज्य मॉडल) है जो फिटिंग के हिस्से के रूप में स्मूथिंग की डिग्री (स्लाइन की संख्या, उदाहरण के लिए) चुन सकता है। R में एकाधिक प्रतिगमन के लिए परिवर्तनशील चर देखें , R mgcv में मापदंडों में फेरबदल करने के बाद मेरी स्प्लिन अधिक लचीली क्यों नहीं हुईं?