Ist es eine gute Idee, ein lineares Modell (wie die logistische Regression) zu verwenden, um neue Features für ein nichtlineares Modell (wie die zufällige Gesamtstruktur) zu generieren? [Duplikat]
Die Einstellung ist ein 2-Klassen-Klassifizierungsproblem. Wir haben zu viele Funktionen, von denen einige nicht sehr informativ und mit vielen Nullen versehen sind. Wir überlegen, wie wir die besten Funktionen auswählen können, und PCA (im vollständigen Datensatz oder möglicherweise in Gruppen verwandter Funktionen) ist eine der Alternativen. Aber ich dachte, wenn es einen anderen Weg gibt, lineare Kombinationen von Merkmalen zu erzeugen, der nicht nur die intrinsische Varianz, sondern auch die Beziehung zum Ziel berücksichtigt. Wie eine Ziel-PCA, falls vorhanden.
Und eine Annäherung an diese Idee könnte das sein, was ich in der Hauptfrage stelle: Könnte es eine gute Idee sein, einen linearen Klassifikator wie logistische Regression oder SVM zu verwenden, um lineare Kombinationen von Merkmalen zu erzeugen, mit denen in gewisser Weise der Informationsgewinn optimiert wird Respekt vor dem Ziel? Da ich denke, wenn eine Hyperebene bei einer Teilmenge von Variablen eine gute Trennung der Klassen bewirken kann, hat die Gleichung der Hyperebene, die als Merkmal betrachtet wird, eine größere Vorhersagekraft als jedes einzelne Merkmal, sodass Sie sie möglicherweise ersetzen können die Gruppe von Features mit dem neuen und geben Sie alle diese generierten Features dem letzten Modell (der zufälligen Gesamtstruktur) als Eingabe.
EDIT: Es gibt eine sehr ähnliche Frage zu dieser, die jemand vorgeschlagen hat:
Nicht senkrechte Hyperebenenentscheidungsbäume
Es hängt eng mit dem zusammen, was ich dachte. Vielen Dank an alle !!
Antworten
Es sieht so aus, als ob Partial Least Squares (PLS) das ist, was Sie "Ziel-PCA" nennen - ursprünglich dient dies der Regression, aber es gibt Versionen für die Klassifizierung.
Ein Problem mit dem, was Sie hier vorschlagen, besteht darin, dass Sie vorsichtig sein müssen, wenn Sie später so etwas wie eine Kreuzvalidierung zur Beurteilung der Qualität Ihres Klassifikators verwenden. Wenn Sie den gesamten Datensatz für die Feature-Generierung verwenden, müssen Sie die spätere zufällige Gesamtstruktur kreuzvalidieren wird irreführend sein. (Dies kann mit einer Kreuzvalidierung des gesamten Prozesses behandelt werden, dies ist jedoch schwieriger und rechenintensiver.)
Es würde mich wundern, wenn die Informationsreduktion vor einer zufälligen Gesamtstruktur besser ist als eine zufällige Gesamtstruktur in Bezug auf die vollständigen Informationen. Ich kenne keine Ergebnisse, die darauf hindeuten würden, dass eine solche Operation im Voraus der zufälligen Gesamtstruktur irgendwie hilft, obwohl die Möglichkeit besteht, dass dies der Fall ist in Ihrer Situation kann nicht ausgeschlossen werden (wenn Sie genügend Daten haben, können Sie einige beiseite lassen und vergleichen).
Ein weiteres Problem ist, dass logistische Regression oder SVD Features generieren, um ihre eigene Art der Klassifizierung zu optimieren. Warum sollte es besser sein, diese Features mit einer anderen Methode zu verwenden, die für etwas anderes eingerichtet wurde?