Imputación de valores perdidos para el modelo de regresión lineal, usando regresión lineal

Aug 16 2020

Raspé un sitio web de bienes raíces y me gustaría imputar los datos faltantes en el área total (aproximadamente el 40% faltante) usando regresión lineal. Consigo los mejores resultados utilizando precio, número de habitaciones, dormitorios, baños y tocador.

Agregar precio a la información de la habitación hace una diferencia significativa. Esto tiene sentido, ya que el número de habitaciones por sí solo no le da ninguna información sobre el tamaño de esas habitaciones. El precio puede reducir algo de esa incertidumbre. Existe una diferencia de 20 puntos entre las puntuaciones R ^ 2 del modelo que incluye y el que excluye precio (0,62 vs 0,82).

El problema que veo es que mi modelo final probablemente también sea una regresión lineal con el precio como objetivo. Con esto, parece incorrecto incluir el precio en la predicción del área total para la imputación. En esencia, estoy usando el objetivo para predecir una característica y luego uso esa característica para predecir el objetivo nuevamente. Eso es circular y me parece problemático, pero podría estar equivocado. Como consecuencia, mi modelo final se verá mejor, pero habré diseñado una correlación sintética. Esto parece especialmente crítico ya que alrededor del 40% de los valores deben reemplazarse.

¿Alguien no está de acuerdo con esto? ¿Debo mantener el precio como predictor para imputar los valores faltantes aunque sea el objetivo de mi modelo final?

Respuestas

EdM Aug 16 2020 at 04:17

Como dice Robert Long en un comentario, "Con una sola imputación, no debería hacerlo en primer lugar".

Existe una forma muy respetada de lidiar con los datos faltantes, haciendo múltiples imputaciones. La idea es reconocer e incorporar la variabilidad en el proceso de imputación produciendo probabilísticamente varios conjuntos de datos imputados diferentes. Luego, realiza su análisis por separado en cada uno de los conjuntos imputados y combina la información de una manera que tenga en cuenta tanto la variabilidad dentro del conjunto como entre conjuntos. Eso evita la circularidad inherente a la que temes con razón con el enfoque de imputación única.

Las funciones que implementan el proceso de imputación y análisis están disponibles en muchos sistemas de software estadístico. Este libro en línea es una introducción útil. Y sí, incluir los resultados (precios en su caso) es una parte importante del proceso de imputación múltiple .