Quand devrais-je faire le partage des tests de train?
Je suis nouveau dans l'apprentissage automatique. Je ne sais pas vraiment quand effectuer un test de train fractionné.
L'ordre donné ci-dessous est-il correct?
Divisez des données entières en ensemble de formation et de test
Extraire les fonctionnalités des données d'entraînement
Ajuster le modèle de classification aux caractéristiques extraites des données d'entraînement
Extraire les mêmes fonctionnalités, qui ont été calculées à l'étape 2, à partir des données de test
Appliquer le modèle ajusté à l'étape 3 aux caractéristiques extraites des données de test à l'étape 4 pour évaluer le modèle
Réponses
Votre procédure est généralement correcte. Dans une boucle plus complexe, des opérations supplémentaires peuvent inclure la validation, l'optimisation d'hyper-paramètres, la sélection de fonctionnalités, etc.
En règle générale, l'extraction de caractéristiques suit l'analyse exploratoire des données (EDA), où vous apprenez à connaître vos données, les analysez / les résumez, en tirez des conclusions intuitives. Dans EDA, vous ne faites pas nécessairement une séparation train / test.
Notez que si vous répétez les étapes 2 et 3 dans une boucle de rétroaction afin de tester si les fonctionnalités nouvellement extraites (par exemple les variables d'interaction) sont utiles pour le modèle ou non, vous aurez besoin d'une étape de validation.