Kapan saya harus melatih split tes?

Aug 18 2020

Saya baru mengenal Machine Learning. Saya pada dasarnya bingung kapan harus melakukan split tes kereta.

Apakah urutan yang diberikan di bawah ini benar?

  1. Pisahkan seluruh data menjadi set pelatihan dan pengujian

  2. Ekstrak Fitur dari data pelatihan

  3. Sesuaikan model klasifikasi dengan fitur yang diekstrak dari data pelatihan

  4. Ekstrak fitur yang sama, yang dihitung pada langkah 2, dari data pengujian

  5. Terapkan model yang dipasang di langkah 3 ke fitur yang diekstrak dari data pengujian di langkah 4 untuk mengevaluasi model

Jawaban

6 gunes Aug 18 2020 at 21:24

Prosedur Anda umumnya benar. Dalam loop yang lebih kompleks, operasi tambahan mungkin termasuk validasi, optimasi hyper-parameter, pemilihan fitur, dll.

Biasanya, ekstraksi fitur mengikuti analisis data eksplorasi (EDA), di mana Anda mengenal data Anda, menganalisis / meringkasnya, menarik kesimpulan yang intuitif. Di EDA, Anda tidak perlu melakukan train / test split.

Perhatikan bahwa, jika Anda mengulangi langkah 2-3 dalam loop umpan balik sehingga Anda menguji apakah fitur yang baru diekstraksi (mis. Variabel interaksi) berguna untuk model atau tidak, Anda memerlukan langkah validasi.