Regressione logistica multipla per i dati di conteggio utilizzando glm
Sto riscontrando alcune difficoltà nell'adattare un modello di regressione logistica multipla per i miei dati che assomiglia a questo,

Come puoi vedere dallo screenshot qui sopra ci sono 4 variabili esplicative, età , sesso , disabilità e razza che assumono la forma binomiale come 1 e 0. I dati possono essere presentati come dati di conteggio ,

dove Y è la variabile di risposta binaria (1 per Sì e 0 per No).
Esempio di dati riproducibili :
set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))
dat <- data.frame(age, gender, disability, race)
m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))
colnames(m) <- c("Age", "Gender", "Disability", "Race")
dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt
Sembra un problema molto semplice, ma non riesco ancora a trovare una soluzione appropriata per adattare un modello logistico multiplo utilizzato glm()
specificamente per questo tipo di dati.
Fonti
Regressione logistica in r per conteggi aggregati
Questo non funziona poiché può essere applicato solo alla tabella di contingenza
Qualsiasi aiuto o consiglio sarebbe molto apprezzato!!
Risposte
Quindi ho avuto l'opportunità di ricreare il set di dati non elaborato ed eseguire la regressione logistica. In effetti, funziona in R e SAS, ma hai un problema con quella che è nota come "separazione quasi completa dei punti dati". Ciò accade quando una combinazione lineare di variabili predittive determina o separa completamente la variabile di risultato, e quindi le stime di massima verosimiglianza non esistono. Ecco l'output di SAS che indica il problema:
Probability modeled is Y='1'.
Stato di convergenza del modello Separazione quasi completa dei punti dati rilevati.
**Warning: The maximum likelihood estimate may not exist.**
Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable.
Model Fit Statistics
Criterion Intercept Only Intercept and
Covariates
AIC 1032.865 982.586
SC 1037.477 1005.646
-2 Log L 1030.865 972.586
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 58.2791 4 <.0001
Score 42.0614 4 <.0001
Wald 0.0543 4 0.9996
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq
Intercept 1 0.0633 0.0863 0.5380 0.4633
Age 1 -12.2182 119.4 0.0105 0.9185
Gender 1 12.1913 182.3 0.0045 0.9467
Disability 1 2.3E-11 152.7 0.0000 1.0000
Race 1 -984E-13 205.7 0.0000 1.0000
Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
Age <0.001 <0.001 >999.999
Gender >999.999 <0.001 >999.999
Disability 1.000 <0.001 >999.999
Race 1.000 <0.001 >999.999
Puoi leggere di più su questo problema e possibilmente rimedi qui sul sito web IDRE dell'UCLA .