Memasukkan nilai yang hilang untuk model regresi linier, menggunakan regresi linier

Aug 16 2020

Saya mengorek situs web real estat dan ingin memasukkan data yang hilang pada total luas (sekitar 40% hilang) menggunakan regresi linier. Saya mencapai hasil terbaik dengan menggunakan harga, jumlah kamar, kamar tidur, kamar mandi, dan ruang rias.

Menambahkan harga ke informasi kamar akan membuat perbedaan yang signifikan. Ini masuk akal, karena jumlah kamar saja tidak memberi Anda informasi tentang seberapa besar ruangan tersebut. Harga dapat mengurangi beberapa ketidakpastian itu. Ada perbedaan 20 poin antara skor R ^ 2 dari model yang disertakan dan skor yang tidak termasuk harga (0.62 vs 0.82).

Masalah yang saya lihat, adalah bahwa model terakhir saya kemungkinan besar juga merupakan regresi liner dengan harga sebagai target. Dengan ini, sepertinya salah memasukkan harga dalam memprediksi total area untuk imputasi. Intinya, saya menggunakan target untuk memprediksi fitur dan kemudian menggunakan fitur itu untuk memprediksi target lagi. Itu melingkar dan tampaknya bermasalah bagi saya, tetapi saya bisa saja salah. Model terakhir saya akan terlihat lebih baik sebagai konsekuensinya, tetapi saya akan merekayasa korelasi sintetik. Ini tampaknya sangat penting karena sekitar 40% nilai perlu diganti.

Apakah ada yang tidak setuju dengan ini? Haruskah saya mempertahankan harga sebagai prediktor untuk memperhitungkan nilai yang hilang meskipun itu akan menjadi target model akhir saya?

Jawaban

EdM Aug 16 2020 at 04:17

Seperti yang dikatakan Robert Long dalam sebuah komentar, "Dengan imputasi tunggal, Anda seharusnya tidak melakukannya sejak awal."

Ada cara yang baik untuk menangani data yang hilang, dengan melakukan banyak imputasi. Idenya adalah untuk mengakui dan memasukkan variabilitas dalam proses imputasi dengan menghasilkan beberapa set data terkait secara probabilistik. Anda kemudian melakukan analisis Anda secara terpisah pada setiap set yang diperhitungkan, dan menggabungkan informasi dengan cara yang memperhitungkan variabilitas dalam set dan antara set. Itu mengatasi sirkularitas inheren yang Anda takuti dengan pendekatan imputasi tunggal.

Fungsi yang menerapkan proses imputasi dan analisis tersedia di banyak sistem perangkat lunak statistik. Buku online ini adalah pengantar yang bermanfaat. Dan ya, memasukkan hasil (harga dalam kasus Anda) adalah bagian penting dari proses imputasi ganda .