Imputation des valeurs manquantes pour le modèle de régression linéaire, à l'aide de la régression linéaire
J'ai gratté un site Web immobilier et je voudrais imputer les données manquantes sur la superficie totale (environ 40% manquant) à l'aide de la régression linéaire. J'obtiens les meilleurs résultats en utilisant le prix, le nombre de pièces, les chambres, les salles de bain et les salles d'eau.
L'ajout de prix aux informations sur la chambre fait une différence significative. Cela a du sens, car le nombre de pièces à lui seul ne vous donne aucune information sur la taille de ces pièces. Le prix peut réduire une partie de cette incertitude. Il y a une différence de 20 points entre les scores R ^ 2 du modèle qui inclut et celui qui exclut le prix (0,62 vs 0,82).
Le problème que je vois, c'est que mon modèle final serait probablement aussi une régression de ligne avec le prix comme objectif. Avec cela, il semble erroné d'inclure le prix dans la prévision de la superficie totale pour l'imputation. En gros, j'utilise la cible pour prédire une caractéristique, puis j'utilise cette fonctionnalité pour prédire à nouveau la cible. C'est circulaire et cela me semble problématique, mais je peux me tromper. Mon modèle final sera meilleur en conséquence mais j'aurai conçu une corrélation synthétique. Cela semble particulièrement critique car environ 40% des valeurs doivent être remplacées.
Quelqu'un est-il en désaccord avec cela? Dois-je garder le prix comme prédicteur pour imputer les valeurs manquantes même s'il sera la cible de mon modèle final?
Réponses
Comme le dit Robert Long dans un commentaire, «Avec une imputation unique, vous ne devriez pas le faire en premier lieu».
Il existe une manière bien respectée de traiter les données manquantes, en effectuant des imputations multiples. L'idée est de reconnaître et d'incorporer la variabilité dans le processus d'imputation en produisant de manière probabiliste plusieurs ensembles de données imputées différents. Vous effectuez ensuite votre analyse séparément sur chacun des ensembles imputés et combinez les informations de manière à prendre en compte la variabilité intra-ensemble et inter-ensembles. Cela contourne la circularité inhérente que vous craignez à juste titre avec l'approche d'imputation unique.
Les fonctions mettant en œuvre le processus d'imputation et d'analyse sont disponibles dans de nombreux logiciels statistiques. Ce livre en ligne est une introduction utile. Et oui, l'inclusion des résultats (les prix dans votre cas) est une partie importante du processus d'imputation multiple .