Regresión logística múltiple para datos de recuento mediante glm

Aug 24 2020

Estoy teniendo algunas dificultades para ajustar un modelo de regresión logística múltiple para mis datos que se ve así,

Como puede ver en la captura de pantalla anterior, hay 4 variables explicativas, edad , género , discapacidad y raza, tomando la forma binomial como 1 y 0. Los datos se pueden presentar como datos de conteo

donde Y es la variable de respuesta binaria (1 para Sí y 0 para No).

Ejemplo de reproducción de datos :

set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))

dat <- data.frame(age, gender, disability, race)

m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))

colnames(m) <- c("Age", "Gender", "Disability", "Race")

dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt

Esto parece un problema muy simple, pero todavía no puedo encontrar una solución adecuada para adaptarse a un modelo logístico múltiple que se usa glm()para este tipo de datos específicamente.

Fuentes

Regresión logística en r para recuentos agregados

Esto no funciona ya que solo se puede aplicar a la tabla de contingencia

¡Cualquier ayuda o consejo será muy apreciado!

Respuestas

1 StatsStudent Aug 24 2020 at 16:37

Así que tuve la oportunidad de recrear el conjunto de datos sin procesar y ejecutar la regresión logística. De hecho, se ejecuta en R y SAS, pero tiene un problema con lo que se conoce como "separación cuasi completa de puntos de datos". Esto sucede cuando una combinación lineal de variables predictoras determina o separa completamente la variable de resultado, por lo que las estimaciones de máxima probabilidad no existen. Aquí está el resultado de SAS que indica el problema:

Probability modeled is Y='1'. 

Estado de la convergencia del modelo Separación casi completa de los puntos de datos detectados.

**Warning: The maximum likelihood estimate may not exist.** 

Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable. 

Model Fit Statistics 
Criterion Intercept Only Intercept and
Covariates 
AIC 1032.865 982.586 
SC 1037.477 1005.646 
-2 Log L 1030.865 972.586 

Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 58.2791 4 <.0001 
Score 42.0614 4 <.0001 
Wald 0.0543 4 0.9996 

Analysis of Maximum Likelihood Estimates 
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq 
Intercept 1 0.0633 0.0863 0.5380 0.4633 
Age 1 -12.2182 119.4 0.0105 0.9185 
Gender 1 12.1913 182.3 0.0045 0.9467 
Disability 1 2.3E-11 152.7 0.0000 1.0000 
Race 1 -984E-13 205.7 0.0000 1.0000 

Odds Ratio Estimates 
Effect Point Estimate 95% Wald
Confidence Limits 
Age <0.001 <0.001 >999.999 
Gender >999.999 <0.001 >999.999 
Disability 1.000 <0.001 >999.999 
Race 1.000 <0.001 >999.999 

Puede leer más sobre este problema y posibles soluciones aquí en el sitio web IDRE de UCLA .