Kiedy powinienem zrobić split testowy?

Aug 18 2020

Jestem nowy w uczeniu maszynowym. W zasadzie nie wiem, kiedy wykonać podział testu pociągu.

Czy kolejność podana poniżej jest poprawna?

  1. Podziel całe dane na zbiór uczący i testowy

  2. Wyodrębnij funkcje z danych treningowych

  3. Dopasuj model klasyfikacji do funkcji wyodrębnionych z danych uczących

  4. Wyodrębnij te same funkcje, które zostały obliczone w kroku 2, z danych testowych

  5. Zastosuj dopasowany model w kroku 3 do cech wyodrębnionych z danych testowych w kroku 4, aby ocenić model

Odpowiedzi

6 gunes Aug 18 2020 at 21:24

Twoja procedura jest ogólnie poprawna. W bardziej złożonej pętli dodatkowe operacje mogą obejmować walidację, optymalizację hiperparametrów, wybór funkcji itp.

Zazwyczaj ekstrakcja cech następuje po eksploracyjnej analizie danych (EDA), podczas której poznaje się dane, analizuje je / podsumowuje, wyciąga intuicyjne wnioski. W EDA niekoniecznie robisz podział na pociąg / test.

Zwróć uwagę, że jeśli powtórzysz kroki 2–3 w pętli sprzężenia zwrotnego, aby sprawdzić, czy nowo wyodrębnione funkcje (np. Zmienne interakcji) są przydatne dla modelu, będziesz potrzebować kroku weryfikacji.