Kiedy powinienem zrobić split testowy?
Jestem nowy w uczeniu maszynowym. W zasadzie nie wiem, kiedy wykonać podział testu pociągu.
Czy kolejność podana poniżej jest poprawna?
Podziel całe dane na zbiór uczący i testowy
Wyodrębnij funkcje z danych treningowych
Dopasuj model klasyfikacji do funkcji wyodrębnionych z danych uczących
Wyodrębnij te same funkcje, które zostały obliczone w kroku 2, z danych testowych
Zastosuj dopasowany model w kroku 3 do cech wyodrębnionych z danych testowych w kroku 4, aby ocenić model
Odpowiedzi
Twoja procedura jest ogólnie poprawna. W bardziej złożonej pętli dodatkowe operacje mogą obejmować walidację, optymalizację hiperparametrów, wybór funkcji itp.
Zazwyczaj ekstrakcja cech następuje po eksploracyjnej analizie danych (EDA), podczas której poznaje się dane, analizuje je / podsumowuje, wyciąga intuicyjne wnioski. W EDA niekoniecznie robisz podział na pociąg / test.
Zwróć uwagę, że jeśli powtórzysz kroki 2–3 w pętli sprzężenia zwrotnego, aby sprawdzić, czy nowo wyodrębnione funkcje (np. Zmienne interakcji) są przydatne dla modelu, będziesz potrzebować kroku weryfikacji.