Wann sollte ich Train Test Split machen?

Aug 18 2020

Ich bin neu im maschinellen Lernen. Ich bin im Grunde verwirrt darüber, wann ich einen Zugtest-Split durchführen soll.

Ist die unten angegebene Reihenfolge korrekt?

  1. Teilen Sie die gesamten Daten in Trainings- und Test-Sets auf

  2. Extrahieren Sie Features aus Trainingsdaten

  3. Passen Sie das Klassifizierungsmodell an die aus den Trainingsdaten extrahierten Merkmale an

  4. Extrahieren Sie dieselben Merkmale, die in Schritt 2 berechnet wurden, aus den Testdaten

  5. Wenden Sie das angepasste Modell in Schritt 3 auf die Merkmale an, die in Schritt 4 aus den Testdaten extrahiert wurden, um das Modell zu bewerten

Antworten

6 gunes Aug 18 2020 at 21:24

Ihr Verfahren ist im Allgemeinen korrekt. In einer komplexeren Schleife können zusätzliche Operationen Validierung, Hyperparameteroptimierung, Merkmalsauswahl usw. umfassen.

In der Regel folgt die Merkmalsextraktion der explorativen Datenanalyse (EDA), bei der Sie Ihre Daten kennenlernen, analysieren / zusammenfassen und intuitive Schlussfolgerungen ziehen. In EDA führen Sie nicht unbedingt eine Zug- / Testaufteilung durch.

Beachten Sie, dass Sie einen Validierungsschritt benötigen, wenn Sie die Schritte 2-3 in einer Rückkopplungsschleife wiederholen, um zu testen, ob neu extrahierte Features (z. B. Interaktionsvariablen) für das Modell nützlich sind oder nicht.