선형 회귀를 사용하여 선형 회귀 모델에 대한 결 측값 대치
부동산 웹 사이트를 긁어 내고 선형 회귀를 사용하여 총 면적 (약 40 % 누락)에 누락 된 데이터를 대치하고 싶습니다. 가격, 객실 수, 침실, 욕실, 파우더 룸을 사용하여 최상의 결과를 얻습니다.
객실 정보에 가격을 추가하면 상당한 차이가 있습니다. 이것은 방의 수만으로는 방의 크기에 대한 정보를 제공하지 않기 때문에 의미가 있습니다. 가격은 불확실성을 줄일 수 있습니다. 포함하는 모델의 R ^ 2 점수와 가격을 제외한 점수 사이에는 20 점 차이가 있습니다 (0.62 대 0.82).
내가 보는 문제는 내 최종 모델이 가격을 목표로하는 라이너 회귀 일 가능성이 있다는 것입니다. 이로 인해 대치 할 총 면적을 예측할 때 가격을 포함하는 것은 잘못된 것 같습니다. 본질적으로, 저는 대상을 사용하여 특징을 예측 한 다음 해당 특징을 사용하여 대상을 다시 예측합니다. 그것은 순환적이고 나에게 문제가되는 것처럼 보이지만 틀릴 수 있습니다. 결과적으로 내 최종 모델이 더 좋아 보이지만 합성 상관 관계를 설계했습니다. 이는 가치의 약 40 %를 교체해야하기 때문에 특히 중요해 보입니다.
누구든지 이것에 동의하지 않습니까? 최종 모델의 대상이 되더라도 누락 된 값을 대치하기 위해 가격을 예측 변수로 유지해야합니까?
답변
Robert Long은 코멘트에서 "단일 대치로 처음부터 그렇게해서는 안됩니다."라고 말합니다.
여러 대치 작업을 수행하여 누락 된 데이터를 처리하는 잘 알려진 방법이 있습니다. 이 아이디어는 확률 적으로 여러 대치 된 데이터 세트를 생성하여 대치 프로세스의 가변성을 인정하고 통합하는 것입니다. 그런 다음 대치 된 각 세트에 대해 개별적으로 분석을 수행하고 세트 내 및 세트 간 변동성을 고려하는 방식으로 정보를 결합합니다. 이는 단일 입력 접근 방식으로 당연히 두려워하는 고유 한 순환 성을 우회합니다.
대치 및 분석 프로세스를 구현하는 기능은 많은 통계 소프트웨어 시스템에서 사용할 수 있습니다. 이 온라인 책 은 유용한 소개 자료입니다. 그리고 예, 결과 (귀하의 경우 가격)를 포함하는 것은 다중 대치 프로세스 의 중요한 부분입니다 .