Assegnazione dei valori mancanti per il modello di regressione lineare, utilizzando la regressione lineare
Ho raschiato un sito web immobiliare e vorrei imputare i dati mancanti sull'area totale (circa il 40% mancante) utilizzando la regressione lineare. Ottengo i migliori risultati utilizzando prezzo, numero di stanze, camere da letto, bagni e bagni.

Aggiungere il prezzo alle informazioni sulla camera fa una differenza significativa. Questo ha senso, poiché il numero di stanze da solo non ti dà alcuna informazione su quanto possano essere grandi quelle stanze. Il prezzo può ridurre parte di questa incertezza. C'è una differenza di 20 punti tra i punteggi R ^ 2 del modello che include e quello che esclude il prezzo (0,62 contro 0,82).
Il problema che vedo è che il mio modello finale sarebbe probabilmente anche una regressione di linea con il prezzo come obiettivo. Con questo, sembra sbagliato includere il prezzo nella previsione dell'area totale per l'imputazione. In sostanza, sto usando l'obiettivo per prevedere una caratteristica e quindi uso quella caratteristica per prevedere di nuovo l'obiettivo. È circolare e mi sembra problematico, ma potrei sbagliarmi. Di conseguenza, il mio modello finale avrà un aspetto migliore, ma avrò progettato una correlazione sintetica. Ciò sembra particolarmente critico poiché è necessario sostituire circa il 40% dei valori.
Qualcuno non è d'accordo con questo? Devo mantenere il prezzo come predittore per imputare i valori mancanti anche se sarà l'obiettivo del mio modello finale?
Risposte
Come dice Robert Long in un commento, "Con una singola imputazione, non dovresti farlo in primo luogo."
Esiste un modo ben rispettato per gestire i dati mancanti, eseguendo più imputazioni. L'idea è di riconoscere e incorporare la variabilità nel processo di imputazione producendo probabilisticamente diversi set di dati imputati diversi. Quindi si esegue l'analisi separatamente su ciascuno degli insiemi imputati e si combinano le informazioni in un modo che tenga conto sia della variabilità all'interno dell'insieme che tra gli insiemi. Questo aggira la circolarità intrinseca che giustamente temi con l'approccio dell'imputazione singola.
Le funzioni che implementano il processo di imputazione e analisi sono disponibili in molti sistemi software statistici. Questo libro in linea è un'utile introduzione. E sì, includere i risultati (i prezzi nel tuo caso) è una parte importante del processo di imputazione multipla .