É uma boa ideia usar um modelo linear (como regressão logística) para gerar novos recursos para um modelo não linear (como floresta aleatória)? [duplicado]

Nov 25 2020

O cenário é um problema de classificação de 2 classes. Temos muitos recursos, alguns deles não muito informativos e com muitos zeros. Estamos pensando em maneiras de selecionar os melhores recursos, e o PCA (no conjunto de dados completo ou talvez em grupos de recursos relacionados) é uma das alternativas. Mas pensei se haveria outra forma de gerar combinações lineares de características que não levasse em consideração apenas a variância intrínseca, mas também a relação com o alvo. Como um PCA de destino, se existisse.

E uma aproximação dessa ideia poderia ser o que eu pergunto na pergunta principal: seria uma boa ideia usar um classificador linear como regressão logística ou SVM para gerar combinações lineares de recursos que, de certa forma, estão otimizando o ganho de informação com respeito ao alvo? Porque eu acho que se, dado um subconjunto de variáveis, um hiperplano pode dar uma boa separação das classes, a equação do hiperplano, considerada uma característica, tem mais poder preditivo do que qualquer uma das características individuais, então talvez você possa substituí-la o grupo de recursos com o novo e fornecer todos esses recursos gerados para o último modelo (a floresta aleatória) como entradas.

EDIT: Há uma pergunta muito semelhante a esta, que alguém sugeriu:

Árvores de decisão de hiperplano não perpendicular

Está intimamente relacionado com o que eu estava pensando. Obrigado a todos !!

Respostas

Lewian Nov 25 2020 at 23:20
  1. Parece que Partial Least Squares (PLS) é o que você chama de "PCA-alvo" - originalmente, isso é para regressão, mas há versões para classificação.

  2. Um problema com o que você propõe aqui é que você precisará ter cuidado ao usar mais tarde algo como validação cruzada para avaliar a qualidade do seu classificador, porque se você usar todo o conjunto de dados para geração de recursos, validação cruzada da floresta aleatória posterior será enganoso. (Isso pode ser resolvido com a validação cruzada de todo o processo, mas é mais difícil e computacionalmente mais complicado.)

  3. Eu ficaria surpreso se a redução da informação antes da floresta aleatória fosse melhor do que a floresta aleatória na informação completa - eu não sei de nenhum resultado que sugira que tal operação de antemão ajude a floresta aleatória, embora a possibilidade de isso ajudar na sua situação não pode ser excluída (se você tiver dados suficientes, pode deixar alguns de lado e comparar).

  4. Outro problema é que a regressão logística ou SVD gera recursos para otimizar sua própria forma de classificação - por que deveria ser melhor usar esses recursos com outro método que foi configurado para fazer outra coisa?