Czy dobrym pomysłem jest użycie modelu liniowego (np. Regresji logistycznej) do generowania nowych cech dla modelu nieliniowego (np. Losowego lasu)? [duplikować]

Nov 25 2020

To ustawienie jest problemem klasyfikacji 2-klasowej. Mamy zbyt wiele funkcji, niektóre z nich mają mało informacji i zawierają wiele zer. Zastanawiamy się nad sposobami wyboru najlepszych funkcji, a PCA (w pełnym zbiorze danych lub może w grupach powiązanych cech) jest jedną z alternatyw. Ale pomyślałem, że gdyby istniał inny sposób generowania liniowych kombinacji cech, który nie tylko bierze pod uwagę wewnętrzną wariancję, ale także związek z celem. Jak target-PCA, jeśli taki istnieje.

A przybliżeniem tego pomysłu mogłoby być to, o co zadaję w głównym pytaniu: czy dobrym pomysłem byłoby użycie klasyfikatora liniowego, takiego jak regresja logistyczna lub SVM, do generowania liniowych kombinacji cech, które w pewnym sensie optymalizują uzyskiwanie informacji z szacunek do celu? Ponieważ uważam, że jeśli, biorąc pod uwagę podzbiór zmiennych, hiperpłaszczyzna może zapewnić dobre rozdzielenie klas, równanie hiperpłaszczyzny, traktowane jako cecha, ma większą moc predykcyjną niż jakakolwiek indywidualna cecha, więc może mógłbyś zastąpić grupę cech z nową i wszystkie te wygenerowane cechy nadaj ostatniemu modelowi (losowemu lasowi) jako dane wejściowe.

EDYCJA: Jest bardzo podobne pytanie do tego, które ktoś zasugerował:

Drzewa decyzyjne nieprostopadłych hiperpłaszczyzn

Jest to ściśle związane z tym, o czym myślałem. Dziękuję wszystkim!!

Odpowiedzi

Lewian Nov 25 2020 at 23:20
  1. Wygląda na to, że częściowe najmniejsze kwadraty (PLS) to coś, co nazywasz „docelowym PCA” - pierwotnie jest to dla regresji, ale istnieją wersje do klasyfikacji.

  2. Jednym z problemów z tym, co tutaj proponujesz, jest to, że będziesz musiał zachować ostrożność, gdy później użyjesz czegoś takiego jak walidacja krzyżowa do oceny jakości twojego klasyfikatora, ponieważ jeśli użyjesz całego zestawu danych do generowania cech, krzyżowa walidacja późniejszego losowego lasu będzie wprowadzać w błąd. (Można sobie z tym poradzić, sprawdzając krzyżowo cały proces, ale jest to trudniejsze i mniej wydajne obliczeniowo).

  3. Zdziwiłbym się, gdyby redukcja informacji przed losowym lasem była lepsza niż losowy las na pełnej informacji - nie znam żadnych wyników, które sugerowałyby, że taka operacja z góry w jakiś sposób pomaga losowemu lasowi, chociaż istnieje możliwość, że tak się dzieje w Twojej sytuacji nie można wykluczyć (jeśli masz wystarczająco dużo danych, możesz zostawić je na boku i porównać).

  4. Inną kwestią jest to, że regresja logistyczna lub SVD generują cechy w celu optymalizacji własnego sposobu klasyfikowania - dlaczego miałoby być lepiej używać tych funkcji z inną metodą, która została skonfigurowana do zrobienia czegoś innego?