線形モデル(ロジスティック回帰など)を使用して、非線形モデル(ランダムフォレストなど)の新しい特徴を生成することをお勧めしますか?[複製]
設定は2クラスの分類問題です。機能が多すぎます。機能の中にはあまり有益ではなく、ゼロが多いものもあります。私たちは最良の機能を選択する方法を考えており、PCA(完全なデータセットまたは関連する機能のグループ)が選択肢の1つです。しかし、固有の分散だけでなく、ターゲットとの関係も考慮した、特徴の線形結合を生成する別の方法があるかどうかを考えました。ターゲットPCAのように、それが存在する場合。
そして、このアイデアの近似は、私が主な質問で尋ねるものである可能性があります:ロジスティック回帰やSVMのような線形分類器を使用して、ある意味で情報ゲインを最適化する機能の線形結合を生成するのは良いアイデアでしょうか?ターゲットに関して?変数のサブセットが与えられた場合、超平面がクラスを適切に分離できると思うので、特徴と見なされる超平面の方程式は、個々の特徴のいずれよりも予測力が高いので、代わりに使用できます。新しい機能を備えた機能のグループであり、この生成されたすべての機能を最後のモデル(ランダムフォレスト)に入力として提供します。
編集:誰かが提案した、これと非常によく似た質問があります:
非垂直超平面決定木
それは私が考えていたことと密接に関係しています。みんな、ありがとう!!
回答
部分最小二乗(PLS)は、いわゆる「ターゲットPCA」のように見えます。元々これは回帰用ですが、分類用のバージョンがあります。
ここで提案する問題の1つは、後で分類器の品質を評価するために相互検証などを使用する場合は注意が必要なことです。これは、データセット全体を特徴の生成に使用する場合、後のランダムフォレストの相互検証が行われるためです。誤解を招く可能性があります。(これは、プロセス全体の相互検証で処理できますが、それはより困難で、計算がより面倒です。)
完全な情報について、ランダムフォレストの前の情報削減がランダムフォレストよりも優れているとしたら、驚きます-事前にそのような操作がランダムフォレストに役立つことを示唆する結果はありませんが、そうなる可能性はありますあなたの状況では除外することはできません(十分なデータがある場合は、いくつかを取っておき、比較することができます)。
もう1つの問題は、ロジスティック回帰またはSVDが独自の分類方法を最適化するために機能を生成することです。これらの機能を、他のことを行うように設定された別のメソッドで使用する方がよいのはなぜですか。