「特徴の重要性」はモデルタイプに依存しますか?
私は小さな分類問題(sklearnからの乳がんデータセット)に取り組んでおり、ラベルを予測するためにどの機能が最も重要であるかを判断しようとしていました。ここで「重要な特徴」を定義する方法がいくつかあることを理解しています(順列の重要性、ツリーでの重要性...)が、次のことを行いました。1)ロジスティック回帰で係数値によって特徴をランク付けします。2)ランダムフォレストからの「特徴の重要性」によって特徴をランク付けします。これらはまったく同じ話ではありません。線形モデルでは「重要ではない」可能性のある機能は、それを「理解」できる非線形モデルでは非常に識別力があると思います。
それは一般的に本当ですか?または、「重要な」機能(分類スコアに最も寄与する機能)は、すべてのタイプのモデルで同じである必要がありますか?
回答
特徴の重要性に関しては、私は常にモデルにとらわれない尺度を使用します。2つの異なるモデルがある場合は、重要性を異なる用語で解釈します(線形モデルを係数として、ツリーベースのモデルを情報ゲインとして/各特徴で不純物が減少します。
したがって、モデルに依存せず、関心のあるメトリックに依存する1つのメジャーについてはすでに説明しました。順列の重要性は、使用しているモデルには関係ありませんが、機能がグローバルパフォーマンスに与える影響は関係ありません。
このリファレンスは、ツリーベースのモデルの重要性よりも順列の重要性を使用することの利点についてのより良いアイデアを与えるかもしれません。順列の重要性とランダムフォレストの特徴の重要性
これまでのあなたの直感は正しいです。機能の重要性はモデル間では広がりません。xgboostモデルの機能スコアは無関係であり、別のモデルをtrsinするための誤った仮定である可能性があります。重要な機能を定義する完璧な方法はありません。一般に、データに関する事前の知識が必要です。