앙상블 식

Nov 19 2020

두 가지 모델이 있습니다. $m_1$$m_2$, 그리고 최종 모델로 앙상블하고 싶습니다. 그리드 검색에 따라 하나 이상의 가중치를 부여하고 싶습니다. 그렇게 할 때 내 마음에 떠오르는 두 가지 주요 아이디어가 있습니다.

  • 모델 패밀리 정의 $m_1 \cdot a + m_2 \cdot (1 - a)$, 어디 $0 < a < 1$, 찾기 $a$ 최고 점수를 제공합니다.
  • 모델 패밀리 정의 $m_1^a \cdot m_2^{1 - a}$, 어디 $0 < a < 1$, 찾기 $a$ 최고 점수를 제공합니다.

그러나 어떤 경우에는 Kaggle 대회에서 상위 모델 이 형태의 최종 모델을 갖는 것과 같이 상당히 다른 일을하는 것을 보았습니다.$m_1^a + m_2^b$.

내 질문은 모든 솔루션의 장단점은 무엇입니까? 언제 더 잘 작동하고 언제 더 나빠질까요? 세 번째 종류의 앙상블이 언제 적합하고 튜닝 할 휴리스틱이 있습니까?$a$$b$?

답변

1 BrianSpiering Nov 21 2020 at 23:03

그것은 경험적인 질문입니다. 답변은 모델과 데이터 세트에 따라 달라집니다.

가장 좋은 방법은 교차 검증을 사용하여 주어진 데이터에 대한 평가 메트릭에서 가장 높은 점수를받은 앙상블 기술을 확인하는 것입니다.

1 CarlosMougan Nov 23 2020 at 21:22

모든 기계 학습 알고리즘에 대해 동일한 질문을 할 수 있지만 여전히 대답은 매우 유사합니다.

의사 결정 트리에 비해 선형 회귀의 장점은 무엇입니까? 이에 답하기 위해 수학적으로 정의 할 수 있습니다. 귀하의 경우에는 가중 평균 또는 기하 평균과 같은 수학적 정의가 쉬워 보입니다.

다른 모델에서 어떤 모델이 더 잘 작동합니까? 교차 검증을 시도하십시오.

안타깝게도 기계 학습의 과학적 방법론은 시도와 오류를 통해 이루어집니다. 모델을 피팅하기 전에 하이퍼 파라미터의 값이 얼마인지 말하는 것은 신뢰할 수 없습니다.

일련의 데이터 세트를 통해 알고리즘을 실행할 때 알고리즘이 ML에서 작동하고 나머지보다 성능이 더 우수하다는 것을 "증명"합니다.

귀하의 질문으로 돌아와서, kaggle에서 일어나는 일은 가장 기술적으로 진보 된 경향이 있습니다. 그래서 거기에 있다면 시도해 볼 가치가 있습니다.

DaL Nov 23 2020 at 13:15

Brain에 동의합니다. 더 잘 작동하는 솔루션은 데이터에 더 잘 맞는 솔루션입니다.

매개 변수가 하나만있는 경우 그리드 검색을 수행하는 대신 최적의 값을 도출 할 수 있습니다. 귀하의 솔루션 제품군은 제한되어 있으므로 상당한 이득을 기대하지는 않지만 사용하지 않을 이유가 없습니다.