Przypisywanie brakujących wartości do modelu regresji liniowej przy użyciu regresji liniowej

Aug 16 2020

Skrobałem witrynę z nieruchomościami i chciałbym przypisać brakujące dane dotyczące całkowitej powierzchni (brak około 40%) za pomocą regresji liniowej. Najlepsze efekty osiągam stosując cenę, ilość pokoi, sypialni, łazienek i toalet.

Dodanie ceny do informacji o pokoju ma istotne znaczenie. Ma to sens, ponieważ sama liczba pokoi nie daje żadnych informacji o tym, jak duże mogą być te pokoje. Cena może zmniejszyć tę niepewność. Istnieje 20-punktowa różnica między wynikami R ^ 2 modelu zawierającego i wykluczającego cenę (0,62 vs 0,82).

Problem, który widzę, polega na tym, że mój ostateczny model prawdopodobnie byłby również regresją liniową z ceną jako celem. W związku z tym błędne wydaje się uwzględnianie ceny w przewidywaniu całkowitej powierzchni do imputacji. Zasadniczo używam celu do przewidywania funkcji, a następnie używam tej funkcji do ponownego przewidywania celu. To okrężne i wydaje mi się problematyczne, ale mogę się mylić. W rezultacie mój ostateczny model będzie wyglądał lepiej, ale skonstruuję syntetyczną korelację. Wydaje się to szczególnie krytyczne, ponieważ około 40% wartości wymaga wymiany.

Czy ktoś się z tym nie zgadza? Czy powinienem zachować cenę jako predyktor, aby przypisać brakujące wartości, mimo że będzie to cel mojego ostatecznego modelu?

Odpowiedzi

EdM Aug 16 2020 at 04:17

Jak mówi Robert Long w komentarzu: „Przy pojedynczym przypisywaniu imputacji w ogóle nie powinieneś tego robić”.

Istnieje dobrze szanowany sposób radzenia sobie z brakującymi danymi, polegający na wielokrotnych imputacjach. Chodzi o to, aby uznać i uwzględnić zmienność w procesie imputacji poprzez utworzenie prawdopodobnie kilku różnych imputowanych zestawów danych. Następnie przeprowadzasz analizę oddzielnie dla każdego z imputowanych zestawów i łączysz informacje w sposób uwzględniający zarówno zmienność w obrębie zestawu, jak i między zestawami. To omija nieodłączną cyrkulację, której słusznie się obawiasz przy podejściu polegającym na pojedynczej imputacji.

Funkcje implementujące proces imputacji i analizy są dostępne w wielu systemach oprogramowania statystycznego. Ta książka online jest pomocnym wprowadzeniem. I tak, uwzględnienie wyników (w twoim przypadku cen) jest ważną częścią procesu wielokrotnej imputacji.