एक घर मूल्य मॉडल के लिए अक्षांश और देशांतर प्रदान करना
मैं मशीन सीखने के लिए नया हूं, और मैं यह समझने की कोशिश कर रहा हूं कि आप किसी मॉडल के लिए डेटा को कैसे अनुकूलित करते हैं। मैं इस आधिकारिक कागले ट्यूटोरियल का अनुसरण कर रहा हूं , जो घर की कीमत की भविष्यवाणी के माध्यम से मशीन सीखने की मूल बातें सिखाता है। वे एक निर्णय पेड़ का उपयोग करते हैं, लेकिन मुझे यह अजीब लगा कि वे किस मॉडल को घर की कीमत का अनुमान लगाने के लिए खिलाते हैं:
house_price_features = ['Rooms', 'Bathroom', 'Landsize', 'Latitude', 'Longitude']
कमरे, स्नानघर, और भूमि सब मेरे लिए मायने रखते हैं - लेकिन अक्षांश और देशांतर? स्पष्ट रूप से स्थान और मूल्य के बीच एक संबंध है, लेकिन यह एक अच्छा वक्र का पालन करने वाला नहीं है। कभी-कभी, ब्लॉक होने से घर की कीमतें दोगुनी बढ़ जाएंगी; कभी-कभी, इसका कोई प्रभाव नहीं पड़ेगा। सहज रूप से, मुझे लगता है कि सभी मॉडल अनुमान लगाने की कीमत में उन सुविधाओं के साथ कर सकते हैं ओवरफिट है। तो, मेरा सवाल दुगना है:
- क्या वे इस मॉडल को मूल्य का अनुमान लगाने के लिए अक्षांश और देशांतर देने के लिए सही थे, या क्या यह बाहरी जानकारी है जो केवल मॉडल को चोट पहुंचा सकती है? क्यों?
- यदि उपरोक्त का उत्तर "नहीं" है, तो क्या अक्षांश और देशांतर डेटा (अर्थात पड़ोस आईडी में) का कोई परिवर्तन है जो डेटा को अधिक सहायक बना देगा?
जवाब
इसका उत्तर हां है क्योंकि स्थान आमतौर पर प्रति वर्ग फीट घर की कीमतों का मुख्य चालक है। इसे छोड़ने से नाटकीय रूप से मॉडल का प्रदर्शन बिगड़ जाएगा।
लैट / लोन के आधार पर, ट्री-आधारित विधियां मानचित्र को आयताकार टुकड़ों में विभाजित करती हैं। एक निश्चित क्षेत्र में प्रभाव और अधिक डेटा को मजबूत करता है, छोटे टुकड़े। कम घने क्षेत्रों में, टुकड़े बहुत छोटे नहीं होंगे।
आप उन्हें रेखीय प्रतिगमन में रैखिक प्रभावों के रूप में नहीं जोड़ेंगे। वहां, आपको विभिन्न दृष्टिकोणों पर विचार करने की आवश्यकता होगी। एक सरल एक क्यूबलाइन द्वारा लैट / लोन का प्रतिनिधित्व करना और उनके बीच बातचीत की शर्तों को जोड़ना होगा।