Wann sollte ich Train Test Split machen?
Ich bin neu im maschinellen Lernen. Ich bin im Grunde verwirrt darüber, wann ich einen Zugtest-Split durchführen soll.
Ist die unten angegebene Reihenfolge korrekt?
Teilen Sie die gesamten Daten in Trainings- und Test-Sets auf
Extrahieren Sie Features aus Trainingsdaten
Passen Sie das Klassifizierungsmodell an die aus den Trainingsdaten extrahierten Merkmale an
Extrahieren Sie dieselben Merkmale, die in Schritt 2 berechnet wurden, aus den Testdaten
Wenden Sie das angepasste Modell in Schritt 3 auf die Merkmale an, die in Schritt 4 aus den Testdaten extrahiert wurden, um das Modell zu bewerten
Antworten
Ihr Verfahren ist im Allgemeinen korrekt. In einer komplexeren Schleife können zusätzliche Operationen Validierung, Hyperparameteroptimierung, Merkmalsauswahl usw. umfassen.
In der Regel folgt die Merkmalsextraktion der explorativen Datenanalyse (EDA), bei der Sie Ihre Daten kennenlernen, analysieren / zusammenfassen und intuitive Schlussfolgerungen ziehen. In EDA führen Sie nicht unbedingt eine Zug- / Testaufteilung durch.
Beachten Sie, dass Sie einen Validierungsschritt benötigen, wenn Sie die Schritte 2-3 in einer Rückkopplungsschleife wiederholen, um zu testen, ob neu extrahierte Features (z. B. Interaktionsvariablen) für das Modell nützlich sind oder nicht.