Doğrusal regresyon kullanarak, doğrusal regresyon modeli için eksik değerlerin hesaplanması
Bir emlak web sitesini kazımıştım ve doğrusal regresyon kullanarak eksik verileri toplam alana (yaklaşık% 40 eksik) dahil etmek istiyorum. En iyi sonuçları fiyat, oda sayısı, yatak odası, banyo ve tuvalet kullanarak elde ediyorum.
Oda bilgilerine fiyat eklemek önemli bir fark yaratır. Bu mantıklıdır, çünkü tek başına oda sayısı size bu odaların ne kadar büyük olabileceği konusunda herhangi bir bilgi vermez. Fiyat bu belirsizliğin bir kısmını azaltabilir. Fiyat içeren model ile hariç tutan modelin R ^ 2 puanları arasında 20 puanlık fark vardır (0.62'ye karşı 0.82).
Gördüğüm sorun şu ki, benim nihai modelim de muhtemelen fiyatın hedef olduğu bir astar gerilemesi olacak. Bununla birlikte, isnat için toplam alanı tahmin etmeye fiyatı dahil etmek yanlış görünmektedir. Esasen, bir özelliği tahmin etmek için hedefi kullanıyorum ve ardından bu özelliği hedefi tekrar tahmin etmek için kullanıyorum. Bu döngüsel ve bana sorunlu görünüyor ama yanılıyor olabilirim. Sonuç olarak son modelim daha iyi görünecek, ancak sentetik bir korelasyon tasarlamış olacağım. Değerlerin yaklaşık% 40'ının değiştirilmesi gerektiğinden, bu özellikle kritik görünmektedir.
Buna katılmayan var mı? Nihai modelimin hedefi olsa bile, eksik değerleri belirlemek için fiyatı bir tahmin aracı olarak tutmalı mıyım?
Yanıtlar
Robert Long'un bir yorumunda dediği gibi, "Tek bir isnatla, ilk etapta bunu yapmamalısın."
Eksik verilerle birden çok suçlama yaparak başa çıkmanın saygın bir yolu vardır. Buradaki fikir, olasılıksal olarak birkaç farklı isnat edilen veri seti üreterek isnat sürecindeki değişkenliği kabul etmek ve dahil etmektir. Daha sonra analizinizi, emsal kümelerin her biri üzerinde ayrı ayrı gerçekleştirirsiniz ve bilgileri, hem küme içi hem de küme arası değişkenliği hesaba katan bir şekilde birleştirirsiniz. Bu, tek isnat yaklaşımı ile haklı olarak korktuğunuz içsel döngüselliğin etrafından dolaşıyor.
İhraç ve analiz sürecini uygulayan işlevler birçok istatistiksel yazılım sisteminde mevcuttur. Bu çevrimiçi kitap faydalı bir giriştir. Ve evet, sonuçların (sizin durumunuzdaki fiyatlar) dahil edilmesi, çoklu isnat sürecinin önemli bir parçasıdır .