लॉजिस्टिक रिग्रेशन मॉडल में रैखिकता धारणा के उल्लंघन के मामले में समाधान? (संभवतः आर में)

Jan 08 2021

मुझे अपने लॉजिस्टिक रिग्रेशन के साथ समस्या है जो मैंने सेट की और मुझे उम्मीद है कि कोई मेरी मदद कर सकता है। (मैं आर के साथ काम कर रहा हूं)

मेरा डेटा प्रति घंटा मानों पर आधारित है। आश्रित चर एक द्विस्वभाव चर (1 या 0) है। मॉडल में 30 मीट्रिक स्वतंत्र चर शामिल हैं (उनमें से 9 में सकारात्मक और नकारात्मक दोनों अवलोकन हैं)।

अब मेरी समस्या: लॉजिस्टिक रिग्रेशन की एक धारणा यह है कि परिणाम के लॉगिट और प्रत्येक स्वतंत्र मीट्रिक चर के बीच एक रैखिक संबंध है। मेरे सभी मॉडलों में इस धारणा का उल्लंघन किया जाता है। (लॉजिस्टिक रिग्रेशन की अन्य सभी मान्यताओं का उल्लंघन नहीं किया जाता है)।

इसे जांचने के लिए, मैंने कई बार बॉक्स-टिडवेल परीक्षण लागू किया। एक बार एक लॉजिस्टिक रिग्रेशन में सभी चर के साथ, जहां मैंने स्वतंत्र चर पर मूल आश्रित चर और स्वतंत्र चर के संबंधित लघुगणकीय परिवर्तन के साथ स्वतंत्र चर के उत्पाद को पुनः प्राप्त किया।

(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))

इसके अलावा मैंने boxTidwell(model$linear.predictors ~ independent variable)प्रत्येक चर के लिए आर फ़ंक्शन के साथ रैखिकता धारणा का परीक्षण अलग से किया। लगभग सभी चर के लिए, परीक्षण ने महत्व दिखाया और इस प्रकार मॉडल धारणा का उल्लंघन हुआ। स्वतंत्र चर के कई परिवर्तनों ने भी मदद नहीं की। इसके अतिरिक्त, मेरे मॉडल होसमेर-लेमेशो परीक्षण में विफल रहे।

मुझे पता है कि अगर मैं मीट्रिक स्वतंत्र चर को श्रेणीबद्ध चर में बदल दूं तो मैं इस धारणा के आसपास पहुंच सकता हूं। हालांकि, मैं इससे बचना चाहूंगा। मैं यह भी पढ़ता हूं कि मैं समस्या को स्प्लिन्स की कार्यप्रणाली से सामना कर सकता हूं। दुर्भाग्य से मुझे यह समझाने वाला कोई साहित्य नहीं मिला। विशेष रूप से एक लॉजिस्टिक मॉडल के अनुमान के लिए नहीं।

अब मैं यह जानना चाहूंगा कि क्या कोई कृपया यहां मेरी मदद कर सकता है।

क्या इस धारणा का उल्लंघन करने का मतलब है कि मुझे इस मॉडल का उपयोग करने की अनुमति नहीं है और इस प्रकार परिणाम गलत हो सकते हैं? (मैं मॉडल को भविष्य कहनेवाला या पूर्वानुमान मॉडल के रूप में उपयोग नहीं करना चाहता, लेकिन केवल डेटा की समयावधि के बारे में समझाने / वर्णन करने के लिए।)

मैं अपनी समस्या को हल करने के लिए स्प्लिन की कार्यप्रणाली कैसे लागू करूं? मैं परिणामों की व्याख्या कैसे करूं? (यदि ये स्पष्टीकरण R- कोड द्वारा समर्थित होते हैं तो यह मुझे बहुत मदद करेगा।)

जवाब

1 kjetilbhalvorsen Jan 10 2021 at 12:09

कई बिंदु:

  • होसमेर-लेमेशो परीक्षण अप्रचलित माना जाता है: लॉजिस्टिक रिग्रेशन के लिए होस्मेर-लेमेशो बनाम एआईसी

  • रैखिकता धारणा का परीक्षण करने के बजाय, प्रतिगमन विभाजन का सीधे उपयोग करें ताकि आपको उस धारणा की आवश्यकता न हो। इस साइट पर कई उदाहरण हैं (ध्यान दें कि लॉजिस्टिक रिग्रेशन में स्प्लिन का उपयोग अन्य रिग्रेशन मॉडल की तरह ही काम करता है) किसी समीकरण के दाईं ओर इस्तेमाल किए जाने पर स्प्लिन कैसे काम करता है? , मैं कैसे चिकनी तख़्ता / शतरंज प्रतिगमन का एक पी-मूल्य पाते हैं?

  • एक विकल्प गम का (सामान्यीकृत योज्य मॉडल) है जो फिटिंग के हिस्से के रूप में स्मूथिंग की डिग्री (स्लाइन की संख्या, उदाहरण के लिए) चुन सकता है। R में एकाधिक प्रतिगमन के लिए परिवर्तनशील चर देखें , R mgcv में मापदंडों में फेरबदल करने के बाद मेरी स्प्लिन अधिक लचीली क्यों नहीं हुईं?