A “importância do recurso” depende do tipo de modelo?

Aug 24 2020

Eu estava trabalhando em um pequeno problema de classificação (conjunto de dados de câncer de mama do sklearn) e tentando decidir quais recursos eram mais importantes para prever os rótulos. Eu entendo que há várias maneiras de definir "característica importante" aqui (importância da permutação, importância nas árvores ...), mas fiz o seguinte: 1) classifiquei as características pelo valor do coeficiente em uma regressão logística; 2) classificar os recursos por "importância do recurso" de uma floresta aleatória. Eles não contam exatamente a mesma história, e estou pensando que um recurso que pode ser "sem importância" em um modelo linear pode ser muito discriminativo em um modelo não linear que pode "entendê-lo".

Isso é verdade em geral? Ou as características "importantes" (aquelas que mais contribuem para uma pontuação de classificação) devem ser as mesmas em todos os tipos de modelos?

Respostas

4 JulioJesus Aug 25 2020 at 05:00

Quando se trata de importância de recurso, sempre opto por uma medida agnóstica de modelo, como você mencionou, se você tiver dois modelos diferentes, eles interpretarão a importância em termos diferentes (modelos lineares como coeficiente e modelos baseados em árvore como ganho de informação diminuição da impureza em cada recurso.

Então você já mencionou uma medida que não depende do modelo, mas da métrica que você está interessado; A importância da permutação não se preocupa com o modelo que você está usando, mas com o impacto que um recurso tem no desempenho global.

Esta referência pode dar-lhe uma idéia melhor das vantagens do uso de permutação importância ao longo baseado em árvore modelos importância Permutation Importância vs aleatório Floresta Importância Característica

3 tehem Aug 24 2020 at 22:19

Sua intuição até agora está correta. A importância do recurso não se estende aos modelos. A pontuação de recurso para um modelo xgboost pode ser irrelevante e uma suposição errada para testar outro modelo. Não existe uma maneira perfeita de definir recursos importantes. Requer algum conhecimento prévio sobre os dados em geral.