Como lidar com um problema de regressão com alvo distorcido e apenas alguns valores altos?

Aug 17 2020

No momento, estou lidando com um problema de regressão com variável de destino distorcida (apresentada abaixo).

Naturalmente, minha primeira ideia foi transformar o alvo com logaritmo natural, pois provavelmente ajudará tanto a regressão linear quanto os algoritmos baseados em árvore de decisão. A segunda ideia é preparar um esquema de validação semelhante à validação cruzada estratificada de k-fold com o destino agrupado em n grupos. No entanto, minha preocupação é que tenho apenas alguns valores mais altos:

Portanto, meu conjunto de teste e todos os erros de conjuntos de validação são altamente dependentes se um desses 4 valores extremos for desenhado dentro deles ou não. Isso torna difícil obter uma estimativa de erro verdadeira confiável.

Existe algo mais que eu possa fazer para lidar com esse problema?

Respostas

1 PredictedLife Aug 18 2020 at 02:50

Você pode gerar distribuição(ões) simétrica(s) por transformação adequada: Sua distribuição é principalmente assimétrica à direita, portanto, uma transformação log10 é necessária.

Você também pode usar um método de categorização automática e combiná-lo com variáveis ​​fictícias para os picos.

Se você realizar uma seleção de recursos, o aluno escolherá automaticamente os recursos mais significativos. Alunos como o XGBoost cuidam automaticamente da multicolinearidade.