Regressione logistica multipla per i dati di conteggio utilizzando glm

Aug 24 2020

Sto riscontrando alcune difficoltà nell'adattare un modello di regressione logistica multipla per i miei dati che assomiglia a questo,

Come puoi vedere dallo screenshot qui sopra ci sono 4 variabili esplicative, età , sesso , disabilità e razza che assumono la forma binomiale come 1 e 0. I dati possono essere presentati come dati di conteggio ,

dove Y è la variabile di risposta binaria (1 per Sì e 0 per No).

Esempio di dati riproducibili :

set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))

dat <- data.frame(age, gender, disability, race)

m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))

colnames(m) <- c("Age", "Gender", "Disability", "Race")

dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt

Sembra un problema molto semplice, ma non riesco ancora a trovare una soluzione appropriata per adattare un modello logistico multiplo utilizzato glm()specificamente per questo tipo di dati.

Fonti

Regressione logistica in r per conteggi aggregati

Questo non funziona poiché può essere applicato solo alla tabella di contingenza

Qualsiasi aiuto o consiglio sarebbe molto apprezzato!!

Risposte

1 StatsStudent Aug 24 2020 at 16:37

Quindi ho avuto l'opportunità di ricreare il set di dati non elaborato ed eseguire la regressione logistica. In effetti, funziona in R e SAS, ma hai un problema con quella che è nota come "separazione quasi completa dei punti dati". Ciò accade quando una combinazione lineare di variabili predittive determina o separa completamente la variabile di risultato, e quindi le stime di massima verosimiglianza non esistono. Ecco l'output di SAS che indica il problema:

Probability modeled is Y='1'. 

Stato di convergenza del modello Separazione quasi completa dei punti dati rilevati.

**Warning: The maximum likelihood estimate may not exist.** 

Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable. 

Model Fit Statistics 
Criterion Intercept Only Intercept and
Covariates 
AIC 1032.865 982.586 
SC 1037.477 1005.646 
-2 Log L 1030.865 972.586 

Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 58.2791 4 <.0001 
Score 42.0614 4 <.0001 
Wald 0.0543 4 0.9996 

Analysis of Maximum Likelihood Estimates 
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq 
Intercept 1 0.0633 0.0863 0.5380 0.4633 
Age 1 -12.2182 119.4 0.0105 0.9185 
Gender 1 12.1913 182.3 0.0045 0.9467 
Disability 1 2.3E-11 152.7 0.0000 1.0000 
Race 1 -984E-13 205.7 0.0000 1.0000 

Odds Ratio Estimates 
Effect Point Estimate 95% Wald
Confidence Limits 
Age <0.001 <0.001 >999.999 
Gender >999.999 <0.001 >999.999 
Disability 1.000 <0.001 >999.999 
Race 1.000 <0.001 >999.999 

Puoi leggere di più su questo problema e possibilmente rimedi qui sul sito web IDRE dell'UCLA .