Mengapa menggunakan validasi silang untuk analisis regresi?
Dalam pekerjaan saya, saya mencoba menyesuaikan regresi logistik multinomial dengan tujuan prediksi. Saat ini saya menerapkan validasi silang dengan Lipatan K Stratifikasi Berulang tetapi saya masih memiliki beberapa pertanyaan tentang metode yang belum pernah saya jawab sebelumnya.
Apakah masuk akal untuk menggunakan validasi silang untuk menguji regresi, dalam kasus ini jika saya tidak menyetel hyperparameter apa pun? Saya telah melihat banyak bahwa cross val paling berguna untuk penyetelan hyperparameter.
Saya menjalankan model saya (regresi dengan prediktor yang sama) dengan 10 lipatan diulang 3 kali, dan saya mendapatkan metrik yang sangat bagus di setiap lipatan (ROC 0,95, penarikan presisi rata-rata mikro 0,94, dan lebih banyak lagi di sepanjang garis itu), yang menyarankan model mendiskriminasi dengan tepat dan mampu memprediksi dengan baik. Dapatkah saya yakin bahwa regresi saya tidak terlalu pas? Artinya, variabel yang saya pilih untuk dijalankan sebagai prediktor tidak akan terlalu cocok dengan data.
Akhirnya, saya tidak yakin apakah secara teknis saya dapat mengakhiri analisis saya di sana, atau saya kemudian dapat membuat "model akhir" dengan semua prediktor yang sama dan dilatih di sebagian besar (jika tidak semua) data. Saya berasumsi jika perusahaan ingin benar-benar menjalankan model ini, mereka akan membutuhkan "kesesuaian akhir" untuk memprediksi, bukan? Haruskah saya menggunakan pemisahan uji coba lain untuk model akhir ini?
Bantuan Anda sangat kami hargai!
Jawaban
Validasi silang dapat digunakan untuk banyak tugas: penyetelan hyperparameter, seberapa stabil kesalahan sampel Anda, tetapi menurut saya ini paling berguna untuk membandingkan model yang berbeda .
Misalnya, jika Anda memiliki dua model, dan Anda menjalankan validasi silang pada keduanya, Anda dapat membandingkan kinerja lipatan yang berbeda dan melihat apakah satu model mengungguli yang lain. Dengan melakukan ini, katakanlah, 10 kali lipat, Anda mendapatkan perkiraan yang lebih kuat dari kinerja sampel yang dibandingkan dengan hanya menggunakan satu set pengujian (yaitu validasi 1 kali lipat).
Anda mungkin menemukan bahwa model yang lebih kompleks bisa mendapatkan AUC rata-rata 0,97, atau mungkin jika overfits dan memberi Anda AUC yang lebih buruk sebesar 0,9. Anda hanya dapat mengatakan jika suatu model terlalu cocok jika Anda benar-benar membandingkannya di luar sampel dengan model yang lebih sederhana.
Untuk pertanyaan terakhir Anda: Setelah Anda menemukan model terbaik yang melakukan validasi silang, dan Anda memutuskan bahwa model ini akan digunakan dalam produksi, Anda harus melatih model pada semua data yang tersedia, sehingga Anda mendapatkan perkiraan yang paling akurat bisa jadi.