glmを使用したカウントデータの複数のロジスティック回帰

Aug 24 2020

このようなデータに多重ロジスティック回帰モデルを適合させるのにいくつかの問題があります。

上のスクリーンショットからわかるように、年齢性別障害人種の4つの説明変数があり、二項式を1と0にしています。データはカウントデータとして表示できます。

ここで、Yはバイナリ応答変数です(はいの場合は1、いいえの場合は0)。

データ再現可能な例

set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))

dat <- data.frame(age, gender, disability, race)

m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))

colnames(m) <- c("Age", "Gender", "Disability", "Race")

dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt

これは非常に単純な問題のように見えますがglm()、このタイプのデータに特に使用する複数のロジスティックモデルに適合する適切な解決策を見つけることができません。

ソース

集計カウントのrのロジスティック回帰

分割表にのみ適用できるため、これは機能しません

どんな助けやアドバイスも大歓迎です!!

回答

1 StatsStudent Aug 24 2020 at 16:37

そのため、生のデータセットを再作成してロジスティック回帰を実行する機会がありました。実際には、RとSASで実行されますが、「データポイントの準完全な分離」と呼ばれる問題があります。これは、予測変数の線形結合が結果変数を完全に決定または分離する場合に発生します。そのため、最尤推定は存在しません。問題を示すSASからの出力は次のとおりです。

Probability modeled is Y='1'. 

モデル収束ステータス検出されたデータポイントの準完全な分離。

**Warning: The maximum likelihood estimate may not exist.** 

Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable. 

Model Fit Statistics 
Criterion Intercept Only Intercept and
Covariates 
AIC 1032.865 982.586 
SC 1037.477 1005.646 
-2 Log L 1030.865 972.586 

Testing Global Null Hypothesis: BETA=0 
Test Chi-Square DF Pr > ChiSq 
Likelihood Ratio 58.2791 4 <.0001 
Score 42.0614 4 <.0001 
Wald 0.0543 4 0.9996 

Analysis of Maximum Likelihood Estimates 
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq 
Intercept 1 0.0633 0.0863 0.5380 0.4633 
Age 1 -12.2182 119.4 0.0105 0.9185 
Gender 1 12.1913 182.3 0.0045 0.9467 
Disability 1 2.3E-11 152.7 0.0000 1.0000 
Race 1 -984E-13 205.7 0.0000 1.0000 

Odds Ratio Estimates 
Effect Point Estimate 95% Wald
Confidence Limits 
Age <0.001 <0.001 >999.999 
Gender >999.999 <0.001 >999.999 
Disability 1.000 <0.001 >999.999 
Race 1.000 <0.001 >999.999 

この問題の詳細と、場合によっては解決策については、UCLAのIDREWebサイトを参照してください。