Quando dovrei fare il test split del treno?

Aug 18 2020

Sono nuovo nel machine learning. Sono fondamentalmente confuso su quando eseguire la divisione del test del treno.

L'ordine indicato di seguito è corretto?

  1. Suddividi interi dati in training e set di test

  2. Estrai funzionalità dai dati di addestramento

  3. Adatta il modello di classificazione alle caratteristiche estratte dai dati di addestramento

  4. Estrarre le stesse caratteristiche, che sono state calcolate nel passaggio 2, dai dati di test

  5. Applicare il modello adattato nel passaggio 3 alle caratteristiche estratte dai dati di test nel passaggio 4 per valutare il modello

Risposte

6 gunes Aug 18 2020 at 21:24

La tua procedura è generalmente corretta. In un ciclo più complesso, operazioni aggiuntive possono includere la convalida, l'ottimizzazione degli iperparametri, la selezione delle funzionalità ecc.

In genere, l'estrazione delle caratteristiche segue l'analisi esplorativa dei dati (EDA), in cui puoi conoscere i tuoi dati, analizzarli / riepilogarli, trarre conclusioni intuitive. In EDA, non devi necessariamente fare una divisione treno / test.

Nota che, se ripeti i passaggi 2-3 in un ciclo di feedback in modo da verificare se le caratteristiche appena estratte (ad esempio le variabili di interazione) sono utili o meno per il modello, avrai bisogno di un passaggio di convalida.