Regresi: apakah salah memasukkan variabel kontinu untuk mengatasi overfitting?
Apakah ahli statistik akan menggantung saya karena melakukan hal berikut?
Saya memiliki kumpulan data subjek lansia yang heterogen . Jadi, saya memiliki model dengan 7 prediktor, termasuk 4 prediktor kategoris, yang beberapa di antaranya memiliki banyak tingkatan. Saya melakukan analisis regional, yang berarti bahwa beberapa daerah memiliki lebih sedikit subjek pada tingkat referensi tertentu dari variabel kategori yang berbeda.
Subjek sebagian besar berusia 70-90 tahun. Variabel usia, mulai dari 50-100, menyebabkan overfitting yang jelas saat membandingkannya dengan analisis data penjelasan plot. Saya menemukan bahwa tidak ada cukup subjek pada usia rata-rata di beberapa wilayah untuk membuat prediksi yang berarti. Saat saya menumpuk variabel umur ke dalam 10 tahun bins dan menggunakan bin dengan jumlah subyek terbesar sebagai referensi, hasil regresi sejalan dengan analisis data penjelasan.
Apakah pengelompokan variabel usia akan baik-baik saja jika saya menerbitkan keduanya: plot pada data mentah + analisis yang disesuaikan? Dengan demikian, kedua analisis tersebut mengkonfirmasi hasil utama - variabilitas regional.
Jawaban
Mengelompokkan variabel kontinu bukanlah ide yang bagus . Anda tidak mungkin diserang secara fisik oleh ahli statistik karena melakukan itu, tetapi Anda mungkin akan mendapat banyak tatapan tajam dan cemberut dan bergumam pelan.
Ada pendekatan yang jauh lebih baik untuk menangani jenis masalah ini, yang akan mengubah cemberut menjadi senyuman: gunakan model campuran . Itu memungkinkan Anda untuk menggabungkan informasi yang berguna di antara individu di wilayah yang berbeda tanpa harus mencakup semua kombinasi prediktor dalam setiap wilayah. Bergantung pada tujuan studi Anda, hal itu dapat dilakukan dengan model multi-level yang memperlakukan individu dan wilayah sebagai efek acak. Jawaban terbaru ini memberikan gambaran yang bagus tentang keuntungan dari pemodelan tersebut.
Sehubungan dengan usia sebagai prediktor berkelanjutan, Anda mungkin merasa berguna untuk membuat model dengan spline yang dapat menemukan hubungan nonlinier antara usia dan hasil sebagai bagian dari proses pemodelan linier. Itu dapat digabungkan dalam model campuran melalui paket perangkat lunak standar.