Solusi dalam kasus pelanggaran asumsi linieritas dalam model regresi logistik? (mungkin di R)

Jan 08 2021

Saya memiliki masalah dengan regresi logistik yang saya siapkan dan saya berharap seseorang dapat membantu saya. (Saya bekerja dengan R)

Data saya didasarkan pada nilai per jam. Variabel terikat adalah variabel dikotomis (1 atau 0). Model ini mencakup 30 variabel independen metrik (9 di antaranya memiliki observasi positif dan negatif).

Sekarang masalah saya: Salah satu asumsi regresi logistik adalah bahwa ada hubungan linier antara logit hasil dan setiap variabel metrik independen. Asumsi ini dilanggar di semua model saya. (Semua asumsi lain dari regresi logistik tidak dilanggar).

Untuk memeriksanya, saya menerapkan uji Box-Tidwell beberapa kali. Once dengan semua variabel dalam regresi logistik, di mana saya regresi variabel dependen asli pada variabel independen dan produk variabel independen dengan masing-masing transformasi logaritmik dari variabel independen.

(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))

Selanjutnya saya menguji asumsi linieritas dengan fungsi R boxTidwell(model$linear.predictors ~ independent variable)untuk setiap variabel secara terpisah. Untuk hampir semua variabel, pengujian tersebut menunjukkan signifikansi dan dengan demikian melanggar asumsi model. Beberapa transformasi variabel independen juga tidak membantu. Selain itu, model saya gagal dalam pengujian Hosmer-Lemeshow.

Saya tahu bahwa saya dapat menyiasati asumsi jika saya mengubah variabel independen metrik menjadi variabel kategori. Namun, saya ingin menghindari ini. Saya juga membaca bahwa saya dapat mengatasi masalah dengan metodologi splines. Sayangnya saya tidak dapat menemukan literatur yang menjelaskan hal ini. Apalagi untuk estimasi model logistik.

Sekarang saya ingin tahu apakah seseorang dapat dengan ramah membantu saya di sini.

Apakah pelanggaran asumsi berarti saya tidak diperbolehkan menggunakan model ini sehingga hasilnya bisa salah? (Saya tidak ingin menggunakan model tersebut sebagai model prediksi atau perkiraan, tetapi hanya untuk menjelaskan / menjelaskan dalam periode waktu data.)

Bagaimana cara menerapkan metodologi splines untuk menyelesaikan masalah saya? Bagaimana cara menafsirkan hasil? (Ini akan sangat membantu saya jika penjelasan ini didukung oleh kode-R.)

Jawaban

1 kjetilbhalvorsen Jan 10 2021 at 12:09

Beberapa poin:

  • Tes Hosmer-Lemeshow dianggap usang: Hosmer-Lemeshow vs AIC untuk regresi logistik

  • Daripada menguji asumsi linieritas, gunakan pemisahan regresi secara langsung sehingga Anda tidak memerlukan asumsi tersebut. Ada banyak contoh di situs ini (perhatikan bahwa penggunaan splines dalam regresi logistik berfungsi sama seperti pada model regresi lainnya) Bagaimana cara kerja splines saat digunakan di sisi kanan persamaan? , Bagaimana cara menemukan nilai p dari regresi smooth spline / loess?

  • Alternatifnya adalah gam (model aditif umum) yang dapat memilih derajat penghalusan (jumlah simpul spline, misalnya) sebagai bagian dari fitting. Lihat Mengubah variabel untuk regresi berganda di R , Mengapa splines saya menjadi tidak lebih fleksibel setelah mengubah parameter dalam R mgcv?