회귀 : 과적 합을 극복하기 위해 연속 변수를 비닝하는 것이 잘못입니까?
통계학자가 다음을 수행하는 경우 나를 교수형에 처할 수 있습니까?
나는 이질적인 노인 피험자 데이터 세트를 가지고 있습니다 . 따라서 4 개의 범주 형 예측 변수를 포함하여 7 개의 예측 변수가있는 모델이 있으며 그중 일부는 많은 수준을 가지고 있습니다. 지역 분석을하고 있는데, 이는 일부 지역이 다른 범주 형 변수의 특정 참조 수준에서 더 적은 주제를 가지고 있음을 의미합니다.
피험자는 대부분 70-90 세입니다. 50-100 범위의 연령 변수는 플롯 설명 데이터 분석과 비교하면서 명확한 과적 합을 유발합니다. 일부 지역에서는 의미있는 예측을 할 수있는 평균 연령의 대상이 충분하지 않다는 것을 알게되었습니다. 연령 변수를 10 년 구간으로 비닝하고 대상 수가 가장 많은 구간을 참조로 사용하면 회귀 결과가 설명 데이터 분석과 일치합니다.
원시 데이터에 대한 플롯 + 조정 된 분석을 모두 게시하면 연령 변수의 비닝이 괜찮을까요? 따라서 두 분석 모두 주요 결과, 즉 지역 가변성을 확인합니다.
답변
연속 변수를 비닝하는 것은 좋은 생각 이 아닙니다 . 그렇게하는 것에 대해 통계 학자로부터 신체적으로 폭행을 당하지는 않을 것 같지만, 아마 많은 시선과 눈살을 찌푸리며 숨을 쉬면서 중얼 거릴 것입니다.
이러한 유형의 문제를 처리하는 훨씬 더 나은 접근 방식이 있는데, 이는 찡그린 얼굴을 미소로 바꾸는 것 입니다. 혼합 모델을 사용하세요 . 이를 통해 각 지역 내의 모든 예측 변수 조합을 다루지 않고도 서로 다른 지역의 개인간에 정보를 유용하게 결합 할 수 있습니다. 연구 목적에 따라 개인과 지역을 모두 무작위 효과로 취급하는 다단계 모델로 수행 할 수 있습니다. 이 최근 답변 은 그러한 모델링의 장점에 대한 좋은 설명을 제공합니다.
연속 예측 변수로서 연령과 관련하여 선형 모델링 프로세스의 일부로 연령과 결과 사이의 비선형 관계를 발견 할 수 있는 스플라인 으로 모델링하는 것이 유용 할 수 있습니다. 표준 소프트웨어 패키지를 통해 혼합 모델에 통합 할 수 있습니다.