Regresión logística múltiple para datos de recuento mediante glm
Estoy teniendo algunas dificultades para ajustar un modelo de regresión logística múltiple para mis datos que se ve así,
Como puede ver en la captura de pantalla anterior, hay 4 variables explicativas, edad , género , discapacidad y raza, tomando la forma binomial como 1 y 0. Los datos se pueden presentar como datos de conteo
donde Y es la variable de respuesta binaria (1 para Sí y 0 para No).
Ejemplo de reproducción de datos :
set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))
dat <- data.frame(age, gender, disability, race)
m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))
colnames(m) <- c("Age", "Gender", "Disability", "Race")
dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt
Esto parece un problema muy simple, pero todavía no puedo encontrar una solución adecuada para adaptarse a un modelo logístico múltiple que se usa glm()para este tipo de datos específicamente.
Fuentes
Regresión logística en r para recuentos agregados
Esto no funciona ya que solo se puede aplicar a la tabla de contingencia
¡Cualquier ayuda o consejo será muy apreciado!
Respuestas
Así que tuve la oportunidad de recrear el conjunto de datos sin procesar y ejecutar la regresión logística. De hecho, se ejecuta en R y SAS, pero tiene un problema con lo que se conoce como "separación cuasi completa de puntos de datos". Esto sucede cuando una combinación lineal de variables predictoras determina o separa completamente la variable de resultado, por lo que las estimaciones de máxima probabilidad no existen. Aquí está el resultado de SAS que indica el problema:
Probability modeled is Y='1'.
Estado de la convergencia del modelo Separación casi completa de los puntos de datos detectados.
**Warning: The maximum likelihood estimate may not exist.**
Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable.
Model Fit Statistics
Criterion Intercept Only Intercept and
Covariates
AIC 1032.865 982.586
SC 1037.477 1005.646
-2 Log L 1030.865 972.586
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 58.2791 4 <.0001
Score 42.0614 4 <.0001
Wald 0.0543 4 0.9996
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq
Intercept 1 0.0633 0.0863 0.5380 0.4633
Age 1 -12.2182 119.4 0.0105 0.9185
Gender 1 12.1913 182.3 0.0045 0.9467
Disability 1 2.3E-11 152.7 0.0000 1.0000
Race 1 -984E-13 205.7 0.0000 1.0000
Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
Age <0.001 <0.001 >999.999
Gender >999.999 <0.001 >999.999
Disability 1.000 <0.001 >999.999
Race 1.000 <0.001 >999.999
Puede leer más sobre este problema y posibles soluciones aquí en el sitio web IDRE de UCLA .