L '"importanza della caratteristica" dipende dal tipo di modello?

Aug 24 2020

Stavo lavorando a un piccolo problema di classificazione (set di dati sul cancro al seno da sklearn) e cercavo di decidere quali caratteristiche fossero più importanti per prevedere le etichette. Capisco che ci sono diversi modi per definire "caratteristica importante" qui (importanza della permutazione, importanza negli alberi ...), ma ho fatto quanto segue: 1) classifica le caratteristiche per valore del coefficiente in una regressione logistica; 2) classifica le caratteristiche per "importanza della caratteristica" da una foresta casuale. Questi non raccontano esattamente la stessa storia, e penso che una caratteristica che potrebbe essere "non importante" in un modello lineare potrebbe essere molto discriminante in un modello non lineare in grado di "comprenderla".

È vero in generale? O le caratteristiche "importanti" (quelle che contribuiscono maggiormente a un punteggio di classificazione) dovrebbero essere le stesse per tutti i tipi di modelli?

Risposte

4 JulioJesus Aug 25 2020 at 05:00

Quando si tratta di importanza delle caratteristiche, scelgo sempre una misura indipendente dal modello, come dici bene se hai due modelli diversi, interpreteranno l'importanza in termini diversi (modelli lineari come coefficiente e modelli basati su albero come guadagno di informazioni diminuzione dell'impurità su ogni caratteristica.

Quindi hai già menzionato una misura che non dipende dal modello, ma piuttosto dalla metrica che ti interessa; L'importanza della permutazione non si preoccupa del modello che stai utilizzando, ma dell'impatto che una funzione ha sulle prestazioni globali.

Questo riferimento potrebbe darti un'idea migliore dei vantaggi dell'utilizzo dell'importanza della permutazione rispetto all'importanza dei modelli basati su albero Importanza della permutazione rispetto all'importanza della caratteristica della foresta casuale

3 tehem Aug 24 2020 at 22:19

La tua intuizione finora è corretta. L'importanza delle funzionalità non si estende ai modelli. Il punteggio della caratteristica per un modello xgboost potrebbe essere irrilevante e un presupposto sbagliato per il trsining di un altro modello. Non esiste un modo perfetto per definire caratteristiche importanti. Richiede una conoscenza preliminare dei dati in generale.