Imputando valores ausentes para o modelo de regressão linear, usando regressão linear
Eu raspei um site de imobiliária e gostaria de imputar dados ausentes sobre a área total (cerca de 40% ausentes) usando regressão linear. Consigo os melhores resultados usando preço, número de cômodos, quartos, banheiros e lavabos.
Adicionar preço às informações do quarto faz uma diferença significativa. Isso faz sentido, uma vez que o número de quartos por si só não fornece nenhuma informação sobre o tamanho desses quartos. O preço pode reduzir parte dessa incerteza. Há uma diferença de 20 pontos entre as pontuações de R ^ 2 do modelo que inclui e o que exclui preço (0,62 vs 0,82).
O problema que vejo é que meu modelo final provavelmente também seria uma regressão linear com o preço como meta. Com isso, parece errado incluir o preço na previsão da área total para imputação. Em essência, estou usando o destino para prever um recurso e, em seguida, uso esse recurso para prever o destino novamente. Isso é circular e parece problemático para mim, mas posso estar errado. Como consequência, meu modelo final parecerá melhor, mas terei criado uma correlação sintética. Isso parece especialmente crítico, pois cerca de 40% dos valores precisam ser substituídos.
Alguém discorda disso? Devo manter o preço como um preditor para imputar valores ausentes, mesmo que ele seja o alvo do meu modelo final?
Respostas
Como Robert Long diz em um comentário: "Com uma única imputação, você não deveria estar fazendo isso em primeiro lugar."
Existe uma maneira bem respeitada de lidar com dados ausentes, fazendo várias imputações. A ideia é reconhecer e incorporar a variabilidade no processo de imputação, produzindo probabilisticamente vários conjuntos de dados imputados diferentes. Em seguida, você realiza sua análise separadamente em cada um dos conjuntos imputados e combina as informações de uma forma que leva em consideração a variabilidade dentro e entre os conjuntos. Isso contorna a circularidade inerente que você teme com razão com a abordagem de imputação única.
As funções que implementam o processo de imputação e análise estão disponíveis em muitos sistemas de software estatístico. Este livro online é uma introdução útil. E sim, incluir os resultados (preços no seu caso) é uma parte importante do processo de imputação múltipla .