Expressões de combinação

Nov 19 2020

Eu tenho dois modelos, $m_1$ e $m_2$, e quero agrupá-los em um modelo final. Eu quero ser capaz de pesar um ou outro mais de acordo com uma pesquisa em grade. Existem duas ideias principais que vêm à minha mente ao fazer isso:

  • Defina uma família de modelos $m_1 \cdot a + m_2 \cdot (1 - a)$, Onde $0 < a < 1$, encontre o $a$ que dá a melhor pontuação.
  • Defina uma família de modelos $m_1^a \cdot m_2^{1 - a}$, Onde $0 < a < 1$, encontre o $a$ que dá a melhor pontuação.

No entanto, em certos casos, eu vi modelos de topo em competições Kaggle fazendo coisas bastante diferentes, como ter um modelo final do formulário$m_1^a + m_2^b$.

Minha pergunta é: quais são as vantagens e desvantagens de cada solução? Quando eles funcionam melhor e quando funcionam pior? Quando é o terceiro tipo de conjunto adequado e existe alguma heurística para ajustar$a$ e $b$?

Respostas

1 BrianSpiering Nov 21 2020 at 23:03

Essa é uma questão empírica. A resposta mudará para diferentes modelos e diferentes conjuntos de dados.

A melhor abordagem seria usar validação cruzada para ver qual técnica de agrupamento tem a melhor pontuação na métrica de avaliação para os dados fornecidos.

1 CarlosMougan Nov 23 2020 at 21:22

Você pode fazer a mesma pergunta com todos os algoritmos de aprendizado de máquina e ainda assim a resposta permanecerá muito semelhante.

Qual é a vantagem da regressão linear sobre as árvores de decisão? Para responder a isso, você pode defini-los matematicamente. No seu caso, a definição matemática parece fácil: média ponderada ou média geométrica.

Quando algum modelo funciona melhor com qualquer outro modelo? Experimente a validação cruzada.

Infelizmente, a metodologia científica em Aprendizado de Máquina é feita por tentativa e erro. Dizer qual será o valor de um hiperparâmetro antes de ajustar o modelo não é confiável.

Você "prova" que um algoritmo funciona em ML quando o executa por meio de um conjunto de conjuntos de dados e tem um desempenho melhor do que o resto.

Voltando à sua pergunta, o que acontece no kaggle tende a ser a coisa mais técnica avançada. Então, se estiver lá, vale a pena tentar.

DaL Nov 23 2020 at 13:15

Eu concordo com o Brain. A solução que funcionará melhor é aquela que melhor se adapta aos seus dados.

Observe que se você tiver apenas um parâmetro, poderá derivar o valor ideal em vez de fazer uma pesquisa de grade. Sua família de soluções está restrita, então não espero um ganho significativo, mas não há razão para não usá-la.