Kapan saya harus melatih split tes?
Saya baru mengenal Machine Learning. Saya pada dasarnya bingung kapan harus melakukan split tes kereta.
Apakah urutan yang diberikan di bawah ini benar?
Pisahkan seluruh data menjadi set pelatihan dan pengujian
Ekstrak Fitur dari data pelatihan
Sesuaikan model klasifikasi dengan fitur yang diekstrak dari data pelatihan
Ekstrak fitur yang sama, yang dihitung pada langkah 2, dari data pengujian
Terapkan model yang dipasang di langkah 3 ke fitur yang diekstrak dari data pengujian di langkah 4 untuk mengevaluasi model
Jawaban
Prosedur Anda umumnya benar. Dalam loop yang lebih kompleks, operasi tambahan mungkin termasuk validasi, optimasi hyper-parameter, pemilihan fitur, dll.
Biasanya, ekstraksi fitur mengikuti analisis data eksplorasi (EDA), di mana Anda mengenal data Anda, menganalisis / meringkasnya, menarik kesimpulan yang intuitif. Di EDA, Anda tidak perlu melakukan train / test split.
Perhatikan bahwa, jika Anda mengulangi langkah 2-3 dalam loop umpan balik sehingga Anda menguji apakah fitur yang baru diekstraksi (mis. Variabel interaksi) berguna untuk model atau tidak, Anda memerlukan langkah validasi.