रैखिक प्रतिगमन मॉडल के लिए लापता मानों का विमोचन करना, रैखिक प्रतिगमन का उपयोग करना
मैंने एक रियल एस्टेट वेबसाइट को स्क्रैप किया और रैखिक प्रतिगमन का उपयोग करके कुल क्षेत्र (लगभग 40% लापता) पर लापता डेटा को लागू करना चाहूंगा। मैं मूल्य, कमरों की संख्या, बेडरूम, बाथरूम और पाउडर कमरे का उपयोग करके सर्वोत्तम परिणाम प्राप्त करता हूं।

कमरे की जानकारी में मूल्य जोड़ना एक महत्वपूर्ण अंतर बनाता है। यह समझ में आता है, क्योंकि अकेले कमरों की संख्या आपको इस बात की कोई जानकारी नहीं देती है कि वे कमरे कितने बड़े हो सकते हैं। कीमत उस अनिश्चितता को कम कर सकती है। मॉडल के आर ^ 2 स्कोर में 20 अंकों का अंतर है और इसमें वह मूल्य शामिल है (0.62 बनाम 0.82)।
जो समस्या मुझे दिखाई दे रही है, वह यह है कि मेरा अंतिम मॉडल भी लक्ष्य के रूप में मूल्य के साथ एक लाइनर प्रतिगमन होगा। इसके साथ, प्रतिरूपण के लिए कुल क्षेत्र की भविष्यवाणी करने में मूल्य को शामिल करना गलत लगता है। संक्षेप में, मैं किसी सुविधा की भविष्यवाणी करने के लिए लक्ष्य का उपयोग कर रहा हूं और फिर लक्ष्य का अनुमान लगाने के लिए उस सुविधा का उपयोग करता हूं। यह परिपत्र है और मुझे समस्याग्रस्त लगता है लेकिन मैं गलत हो सकता हूं। मेरा अंतिम मॉडल एक परिणाम के रूप में बेहतर दिखेगा लेकिन मैंने एक सिंथेटिक सहसंबंध का काम किया होगा। यह विशेष रूप से महत्वपूर्ण लगता है क्योंकि लगभग 40% मूल्यों को प्रतिस्थापित करने की आवश्यकता होती है।
क्या कोई इससे सहमत नहीं है? क्या मुझे लापता मूल्यों को लागू करने के लिए एक भविष्यवक्ता के रूप में मूल्य रखना चाहिए, भले ही यह मेरे अंतिम मॉडल का लक्ष्य होगा?
जवाब
जैसा कि रॉबर्ट लॉन्ग एक टिप्पणी में कहते हैं, "एकल संकेतन के साथ, आपको इसे पहले स्थान पर नहीं करना चाहिए।"
लापता डेटा से निपटने के लिए एक अच्छी तरह से सम्मानित तरीका है, कई प्रतिरूपण करके। यह विचार है कि संभाव्य रूप से कई अलग-अलग प्रतिरूपित डेटा सेटों का निर्माण करके प्रतिरूपण प्रक्रिया में परिवर्तनशीलता को स्वीकार और शामिल किया जाए। फिर आप प्रत्येक प्रतिरूपित सेट पर अपना विश्लेषण अलग-अलग करते हैं, और सूचना को इस तरह से जोड़ते हैं, जो सेट-इन और सेट-सेट परिवर्तनशीलता दोनों को ध्यान में रखता है। यह अंतर्निहित वृत्ताकारता के आस-पास हो जाता है जिसे आप एकल-प्रतिरूपण दृष्टिकोण से सही रूप से डरते हैं।
कई सांख्यिकीय सॉफ्टवेयर सिस्टम में इंप्यूटेशन और विश्लेषण प्रक्रिया को लागू करने वाले कार्य उपलब्ध हैं। यह ऑनलाइन पुस्तक एक उपयोगी परिचय है। और हां, परिणाम सहित (आपके मामले में कीमतें) कई प्रतिरूपण प्रक्रिया का एक महत्वपूर्ण हिस्सा है।