Ввод пропущенных значений для модели линейной регрессии с использованием линейной регрессии

Aug 16 2020

Я просмотрел веб-сайт о недвижимости и хотел бы вменять недостающие данные об общей площади (около 40%), используя линейную регрессию. Я добиваюсь наилучших результатов, используя цену, количество комнат, спален, ванных и туалетных комнат.

Добавление цены к информации о номере имеет большое значение. В этом есть смысл, поскольку одно только количество комнат не дает вам никакой информации о том, насколько большими могут быть эти комнаты. Цена может частично уменьшить эту неопределенность. Разница между оценками R ^ 2 модели, которая включает, и модели, исключающей цену, составляет 20 баллов (0,62 против 0,82).

Проблема, которую я вижу, заключается в том, что моя последняя модель, вероятно, также будет линейной регрессией с ценой в качестве цели. При этом кажется неправильным включать цену в прогноз общей площади для вменения. По сути, я использую цель, чтобы предсказать функцию, а затем снова использую эту функцию, чтобы предсказать цель. Это циркулярно и кажется мне проблематичным, но я могу ошибаться. Моя последняя модель, как следствие, будет выглядеть лучше, но я построю синтетическую корреляцию. Это кажется особенно важным, так как необходимо заменить около 40% значений.

Кто-нибудь с этим не согласен? Следует ли использовать цену в качестве предиктора для вменения отсутствующих значений, даже если она будет целью моей окончательной модели?

Ответы

EdM Aug 16 2020 at 04:17

Как говорит Роберт Лонг в своем комментарии: «При однократном вменении вы вообще не должны этого делать».

Существует хорошо зарекомендовавший себя способ справиться с отсутствующими данными путем множественного вменения. Идея состоит в том, чтобы признать и учесть изменчивость в процессе вменения путем вероятностного получения нескольких различных наборов вмененных данных. Затем вы выполняете анализ отдельно для каждого из вмененных наборов и комбинируете информацию таким образом, чтобы принимать во внимание изменчивость внутри набора и между наборами. Это позволяет обойти присущую вам замкнутость, которой вы справедливо опасаетесь при использовании подхода с одним вменением.

Функции, реализующие процесс условного исчисления и анализа, доступны во многих статистических программных системах. Эта онлайн-книга - полезное введение. И да, в том числе результаты (в вашем случае цены) - важная часть процесса множественного вменения.