¿Solución en caso de violación del supuesto de linealidad en el modelo de regresión logística? (posiblemente en R)

Jan 08 2021

Tengo un problema con la regresión logística que configuré y espero que alguien pueda ayudarme. (Estoy trabajando con R)

Mis datos se basan en valores horarios. La variable dependiente es una variable dicotómica (1 o 0). El modelo incluye 30 variables métricas independientes (9 de ellas tienen observaciones tanto positivas como negativas).

Ahora mi problema: una suposición de regresión logística es que existe una relación lineal entre el logit del resultado y cada variable métrica independiente. Esta suposición se viola en todos mis modelos. (No se violan todos los demás supuestos de regresión logística).

Para comprobar esto, apliqué la prueba Box-Tidwell varias veces. Una vez con todas las variables en una regresión logística, donde regresé la variable dependiente original sobre las variables independientes y el producto de las variables independientes con la respectiva transformación logarítmica de las variables independientes.

(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))

Además, probé el supuesto de linealidad con la función R boxTidwell(model$linear.predictors ~ independent variable)para cada variable por separado. Para casi todas las variables, la prueba mostró significancia y, por lo tanto, una violación del supuesto del modelo. Varias transformaciones de las variables independientes tampoco ayudaron. Además, mis modelos no pasaron la prueba de Hosmer-Lemeshow.

Sé que puedo evitar la suposición si transformo las variables métricas independientes en variables categóricas. Sin embargo, me gustaría evitar esto. También leí que puedo contrarrestar el problema con la metodología de splines. Desafortunadamente no pude encontrar ninguna literatura que explique esto. Especialmente no para una estimación de modelo logístico.

Ahora me gustaría saber si alguien puede ayudarme amablemente aquí.

¿Una violación de la suposición significa que no puedo usar este modelo y, por lo tanto, los resultados podrían ser incorrectos? (No quiero usar el modelo como un modelo predictivo o de pronóstico, sino solo para explicar / describir dentro del período de tiempo de los datos).

¿Cómo aplico la metodología de splines para solucionar mi problema? ¿Cómo interpreto los resultados? (Me ayudaría enormemente si estas explicaciones fueran respaldadas por códigos R).

Respuestas

1 kjetilbhalvorsen Jan 10 2021 at 12:09

Varios puntos:

  • La prueba de Hosmer-Lemeshow se considera obsoleta: Hosmer-Lemeshow vs AIC para regresión logística

  • En lugar de probar el supuesto de linealidad, utilice splines de regresión directamente para no necesitar ese supuesto. Hay muchos ejemplos en este sitio (tenga en cuenta que el uso de splines en la regresión logística funciona igual que en otros modelos de regresión) ¿Cómo funcionan los splines cuando se usan en el lado derecho de una ecuación? , ¿Cómo encuentro un valor p de regresión suave spline / loess?

  • Una alternativa son los gam (modelos aditivos generalizados) que pueden elegir el grado de suavizado (número de nudos spline, por ejemplo) como parte del ajuste. Consulte Transformación de variables para regresión múltiple en R , ¿Por qué mis splines no se vuelven más flexibles después de modificar los parámetros en R mgcv?