회귀 분석에 교차 검증을 사용하는 이유는 무엇입니까?
내 작업에서 나는 예측의 목적에 다항 로지스틱 회귀를 맞추려고 노력하고 있습니다. 현재 반복 계층화 된 K 폴드를 사용하여 교차 검증을 적용하고 있지만 이전에 답을 보지 못한 방법에 대해 여전히 몇 가지 질문이 있습니다.
이 경우 하이퍼 파라미터를 조정하지 않는 경우 회귀를 테스트하기 위해 교차 검증을 사용하는 것이 합리적입니까? 크로스 밸이 하이퍼 파라미터 튜닝에 가장 유용하다는 것을 많이 보았습니다.
10 배를 3 번 반복하여 모델 (동일한 예측 변수를 사용한 회귀)을 실행했으며 각 폴드에서 정말 좋은 메트릭 (ROC 0.95, 마이크로 평균 정밀도-재현율 0.94 등)을 얻었습니다. 모델이 적절하게 식별하고 잘 예측할 수 있습니다. 회귀가 과적 합되지 않는다고 확신 할 수 있습니까? 즉, 예측 변수로 실행하기 위해 선택한 변수가 데이터를 과적 합하지 않을 것입니다.
마지막으로, 여기에서 기술적으로 분석을 종료 할 수 있는지, 아니면 모든 동일한 예측 변수를 사용하여 "최종 모델"을 만들고 데이터의 더 큰 부분 (전부는 아님)으로 훈련 할 수 있는지 확실하지 않습니다. 회사가 실제로이 모델을 실행하려면 예측하기 위해 "최종 적합"이 필요하다고 생각합니다. 맞습니까? 이 최종 모델에 대해 다른 열차 테스트 분할을 사용해야합니까?
귀하의 도움에 감사드립니다!
답변
교차 검증은 하이퍼 파라미터 조정, 샘플 오류가 얼마나 안정적인지 등 많은 작업에 사용할 수 있지만 다른 모델 을 비교하는 데 가장 유용하다고 말하고 싶습니다 .
예를 들어 두 모델이 있고 두 모델 모두에 대해 교차 검증을 실행하는 경우 서로 다른 접기의 성능을 비교하고 한 모델이 다른 모델보다 우수한지 확인할 수 있습니다. 이렇게하면, 예를 들어 10 배로, 하나의 테스트 세트 (예 : 1 배 유효성 검사) 만 사용하는 것과 비교하여 표본 외 성능에 대한 더 강력한 추정치를 얻을 수 있습니다.
더 복잡한 모델은 평균 AUC 0.97을 얻거나 과적 합하여 더 나쁜 AUC 0.9를 얻을 수 있습니다. 모델이 샘플에서 더 단순한 모델과 실제로 비교되는 경우에만 모델이 과적 합한 경우에만 말할 수 있습니다.
마지막 질문 : 교차 검증을 수행하는 최상의 모델을 찾고이 모델을 프로덕션에 사용하기로 결정한 후에는 사용 가능한 모든 데이터에 대해 모델을 학습하여 가장 정확한 추정치를 얻어야합니다. 가능한.