앙상블 식
두 가지 모델이 있습니다. $m_1$ 과 $m_2$, 그리고 최종 모델로 앙상블하고 싶습니다. 그리드 검색에 따라 하나 이상의 가중치를 부여하고 싶습니다. 그렇게 할 때 내 마음에 떠오르는 두 가지 주요 아이디어가 있습니다.
- 모델 패밀리 정의 $m_1 \cdot a + m_2 \cdot (1 - a)$, 어디 $0 < a < 1$, 찾기 $a$ 최고 점수를 제공합니다.
- 모델 패밀리 정의 $m_1^a \cdot m_2^{1 - a}$, 어디 $0 < a < 1$, 찾기 $a$ 최고 점수를 제공합니다.
그러나 어떤 경우에는 Kaggle 대회에서 상위 모델 이 형태의 최종 모델을 갖는 것과 같이 상당히 다른 일을하는 것을 보았습니다.$m_1^a + m_2^b$.
내 질문은 모든 솔루션의 장단점은 무엇입니까? 언제 더 잘 작동하고 언제 더 나빠질까요? 세 번째 종류의 앙상블이 언제 적합하고 튜닝 할 휴리스틱이 있습니까?$a$ 과 $b$?
답변
그것은 경험적인 질문입니다. 답변은 모델과 데이터 세트에 따라 달라집니다.
가장 좋은 방법은 교차 검증을 사용하여 주어진 데이터에 대한 평가 메트릭에서 가장 높은 점수를받은 앙상블 기술을 확인하는 것입니다.
모든 기계 학습 알고리즘에 대해 동일한 질문을 할 수 있지만 여전히 대답은 매우 유사합니다.
의사 결정 트리에 비해 선형 회귀의 장점은 무엇입니까? 이에 답하기 위해 수학적으로 정의 할 수 있습니다. 귀하의 경우에는 가중 평균 또는 기하 평균과 같은 수학적 정의가 쉬워 보입니다.
다른 모델에서 어떤 모델이 더 잘 작동합니까? 교차 검증을 시도하십시오.
안타깝게도 기계 학습의 과학적 방법론은 시도와 오류를 통해 이루어집니다. 모델을 피팅하기 전에 하이퍼 파라미터의 값이 얼마인지 말하는 것은 신뢰할 수 없습니다.
일련의 데이터 세트를 통해 알고리즘을 실행할 때 알고리즘이 ML에서 작동하고 나머지보다 성능이 더 우수하다는 것을 "증명"합니다.
귀하의 질문으로 돌아와서, kaggle에서 일어나는 일은 가장 기술적으로 진보 된 경향이 있습니다. 그래서 거기에 있다면 시도해 볼 가치가 있습니다.
Brain에 동의합니다. 더 잘 작동하는 솔루션은 데이터에 더 잘 맞는 솔루션입니다.
매개 변수가 하나만있는 경우 그리드 검색을 수행하는 대신 최적의 값을 도출 할 수 있습니다. 귀하의 솔루션 제품군은 제한되어 있으므로 상당한 이득을 기대하지는 않지만 사용하지 않을 이유가 없습니다.