Quand devrais-je faire le partage des tests de train?

Aug 18 2020

Je suis nouveau dans l'apprentissage automatique. Je ne sais pas vraiment quand effectuer un test de train fractionné.

L'ordre donné ci-dessous est-il correct?

  1. Divisez des données entières en ensemble de formation et de test

  2. Extraire les fonctionnalités des données d'entraînement

  3. Ajuster le modèle de classification aux caractéristiques extraites des données d'entraînement

  4. Extraire les mêmes fonctionnalités, qui ont été calculées à l'étape 2, à partir des données de test

  5. Appliquer le modèle ajusté à l'étape 3 aux caractéristiques extraites des données de test à l'étape 4 pour évaluer le modèle

Réponses

6 gunes Aug 18 2020 at 21:24

Votre procédure est généralement correcte. Dans une boucle plus complexe, des opérations supplémentaires peuvent inclure la validation, l'optimisation d'hyper-paramètres, la sélection de fonctionnalités, etc.

En règle générale, l'extraction de caractéristiques suit l'analyse exploratoire des données (EDA), où vous apprenez à connaître vos données, les analysez / les résumez, en tirez des conclusions intuitives. Dans EDA, vous ne faites pas nécessairement une séparation train / test.

Notez que si vous répétez les étapes 2 et 3 dans une boucle de rétroaction afin de tester si les fonctionnalités nouvellement extraites (par exemple les variables d'interaction) sont utiles pour le modèle ou non, vous aurez besoin d'une étape de validation.