glmを使用したカウントデータの複数のロジスティック回帰
Aug 24 2020
このようなデータに多重ロジスティック回帰モデルを適合させるのにいくつかの問題があります。

上のスクリーンショットからわかるように、年齢、性別、障害、人種の4つの説明変数があり、二項式を1と0にしています。データはカウントデータとして表示できます。

ここで、Yはバイナリ応答変数です(はいの場合は1、いいえの場合は0)。
データ再現可能な例:
set.seed(10)
age <- round(runif(186, 0,1))
gender <- round(runif(186, 0, 1))
disability <- round(runif(186, 0, 1))
race <- round(runif(186, 0, 1))
dat <- data.frame(age, gender, disability, race)
m <- cbind(table(dat$age), table(dat$gender), table(dat$disability), table(dat$race))
colnames(m) <- c("Age", "Gender", "Disability", "Race")
dt <- data.frame(m)
dt <- tibble::rownames_to_column(dt, "Y")
new_dt <- dt %>% select(Age, Gender, Disability, Race, Y)
new_dt
これは非常に単純な問題のように見えますがglm()
、このタイプのデータに特に使用する複数のロジスティックモデルに適合する適切な解決策を見つけることができません。
ソース
集計カウントのrのロジスティック回帰
分割表にのみ適用できるため、これは機能しません
どんな助けやアドバイスも大歓迎です!!
回答
1 StatsStudent Aug 24 2020 at 16:37
そのため、生のデータセットを再作成してロジスティック回帰を実行する機会がありました。実際には、RとSASで実行されますが、「データポイントの準完全な分離」と呼ばれる問題があります。これは、予測変数の線形結合が結果変数を完全に決定または分離する場合に発生します。そのため、最尤推定は存在しません。問題を示すSASからの出力は次のとおりです。
Probability modeled is Y='1'.
モデル収束ステータス検出されたデータポイントの準完全な分離。
**Warning: The maximum likelihood estimate may not exist.**
Warning: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable.
Model Fit Statistics
Criterion Intercept Only Intercept and
Covariates
AIC 1032.865 982.586
SC 1037.477 1005.646
-2 Log L 1030.865 972.586
Testing Global Null Hypothesis: BETA=0
Test Chi-Square DF Pr > ChiSq
Likelihood Ratio 58.2791 4 <.0001
Score 42.0614 4 <.0001
Wald 0.0543 4 0.9996
Analysis of Maximum Likelihood Estimates
Parameter DF Estimate Standard
Error Wald
Chi-Square Pr > ChiSq
Intercept 1 0.0633 0.0863 0.5380 0.4633
Age 1 -12.2182 119.4 0.0105 0.9185
Gender 1 12.1913 182.3 0.0045 0.9467
Disability 1 2.3E-11 152.7 0.0000 1.0000
Race 1 -984E-13 205.7 0.0000 1.0000
Odds Ratio Estimates
Effect Point Estimate 95% Wald
Confidence Limits
Age <0.001 <0.001 >999.999
Gender >999.999 <0.001 >999.999
Disability 1.000 <0.001 >999.999
Race 1.000 <0.001 >999.999
この問題の詳細と、場合によっては解決策については、UCLAのIDREWebサイトを参照してください。