치우친 목표와 소수의 높은 값으로 회귀 문제를 처리하는 방법은 무엇입니까?

Aug 17 2020

저는 현재 왜곡 된 대상 변수 (아래에 제시됨)로 회귀 문제를 해결하고 있습니다.

당연히 내 첫 번째 아이디어는 선형 회귀 또는 의사 결정 트리 기반 알고리즘 모두에 도움이 될 것이므로 자연 로그로 대상을 변환하는 것이 었습니다. 두 번째 아이디어는 대상이 n 그룹으로 비닝 된 계층화 된 k- 겹 교차 검증과 유사한 검증 체계를 준비하는 것입니다. 그러나 내 우려는 가장 높은 가치가 거의 없다는 것입니다.

따라서 내 테스트 세트와 모든 검증 세트 오류는이 4 개의 극단 값 중 하나가 그 안에 배치되는지 여부에 따라 크게 달라집니다. 따라서 신뢰할 수있는 실제 오류 추정치를 얻기가 어렵습니다.

이 문제를 처리하기 위해 내가 할 수있는 일이 더 있습니까?

답변

1 PredictedLife Aug 18 2020 at 02:50

적절한 변환을 통해 대칭 분포를 생성 할 수 있습니다. 분포는 주로 오른쪽으로 치우 치므로 log10 변환이 필요합니다.

자동 구간 화 방법을 사용하여 스파이크에 대한 더미 변수와 결합 할 수도 있습니다.

그런 다음 기능 선택을 수행하면 학습자가 자동으로 가장 중요한 기능을 선택합니다. XGBoost와 같은 학습자는 다중 공선 성을 자동으로 처리합니다.