Quando dovrei fare il test split del treno?
Sono nuovo nel machine learning. Sono fondamentalmente confuso su quando eseguire la divisione del test del treno.
L'ordine indicato di seguito è corretto?
Suddividi interi dati in training e set di test
Estrai funzionalità dai dati di addestramento
Adatta il modello di classificazione alle caratteristiche estratte dai dati di addestramento
Estrarre le stesse caratteristiche, che sono state calcolate nel passaggio 2, dai dati di test
Applicare il modello adattato nel passaggio 3 alle caratteristiche estratte dai dati di test nel passaggio 4 per valutare il modello
Risposte
La tua procedura è generalmente corretta. In un ciclo più complesso, operazioni aggiuntive possono includere la convalida, l'ottimizzazione degli iperparametri, la selezione delle funzionalità ecc.
In genere, l'estrazione delle caratteristiche segue l'analisi esplorativa dei dati (EDA), in cui puoi conoscere i tuoi dati, analizzarli / riepilogarli, trarre conclusioni intuitive. In EDA, non devi necessariamente fare una divisione treno / test.
Nota che, se ripeti i passaggi 2-3 in un ciclo di feedback in modo da verificare se le caratteristiche appena estratte (ad esempio le variabili di interazione) sono utili o meno per il modello, avrai bisogno di un passaggio di convalida.