変量効果を使用してクラスターレベルの交絡を調整しますか?
たとえばここで議論されているように、観察されないクラスターレベルの交絡を調整するためにランダムインターセプトの使用法があります。
変量効果は変数を混乱させますか?
モデルの交絡に対して変量効果はどのように調整されますか?
このアドバイスと同様の精神の文献からの例に基づいて、クラスターレベルで観察されていない交絡因子が存在するこのようなDAGでの調整に変量効果を使用できると想像できます。
例えば、病院はハイリスク患者(可能性が高い有害な結果を体験すること)と登録するその傾向が異なる臨床研究想像も観測されない構造的な特性に起因する研究対象の治療を与えるために彼らの性向にします。
一方、変量効果モデルの中心的な仮定は、予測子(ここでは:治療)がランダム切片と無相関であるということです。たとえば、Verbeek(2008)を参照してください。
「...そうかもしれない $𝛼_i$ [変量効果]と $x_{it}$[予測子]は相関しています。この場合、この相関を無視して変量効果アプローチを行うと、推定量に一貫性がなくなります。以前にこの例を見ましたが、$𝛼_i$管理品質が含まれ、生産関数に含まれる他の入力と相関していると主張されました。個々の効果間の相関の問題$𝛼_i$ およびの説明変数 $x_{it}$ 固定効果アプローチを使用して処理できます。これにより、 $𝛼_i$ モデルから、したがってそれらが引き起こす可能性のある問題を排除します。」
またはSetodjiand Shwartz(2013):
「...モデルタイプの選択は、観測されていない時不変の省略された変数であるかどうかに基づいて行います。 $\phi_j$[変量効果]は、関心のある主要な予測因子とは無相関です。無相関(ハウスマン検定を使用して評価できる仮定)の場合、変量効果モデルが適切です。それ以外の場合は、固定効果モデルが使用されます。」
定義上、交絡因子が曝露と相関しており、変量効果モデルが変量効果と曝露の無相関を仮定している場合、交絡を調整するために変量効果をどのように使用できますか?
参考文献
- Verbeek、M。(2008)。現代の計量経済学へのガイド。ジョンワイリー&サンズ。
- Setodji、CM、&Shwartz、M。(2013)固定効果モデルまたは変量効果モデル:主要な推論の問題は何ですか?医療、51(1)、25-27。
回答
仮定についてのことは、それらが違反されるためにそこにあるということです。2つの変数の観測研究で不可能ではないにしても、相関がゼロになることはまれです。ランダムサンプリングによるものであり、交絡やその他の因果メカニズムがない場合でも、相関関係が予想されます。興味深い質問は次のとおりです。仮定はどの程度まで変動し、特定のモデルはそのような違反に対してどの程度堅牢ですか。最初のポイントは主観的であり、後者は単純なモデルを除いてすべて確立するのが非常に難しい場合があります。いつものようにシミュレーションはあなたの友達になることができるので、あなたの例を使って見てみましょう:
ここでは、交絡因子Xが露出と高度に相関し、E相関が0.5から0.95の範囲になるように、データをシミュレートします。
set.seed(15)
N <- 100
n.sim <- 100
simvec.E <- numeric(n.sim)
rhos <- seq(0.5, 0.95, by = 0.05)
simvec.rho <- numeric(length(rhos))
for (j in 1:length(rhos)) {
Sigma = matrix(c(1, rhos[j], rhos[j], 1), byrow = TRUE, nrow = 2)
for(i in 1:n.sim) {
dt <- data.frame(mvrnorm(N, mu = c(0,0), Sigma = Sigma, empirical = TRUE))
# put them on a bigger scale, so it's easy to create the group factor
dt1 <- dt + 5
dt1 <- dt1 * 10
X <- as.integer(dt1$X1) E <- dt1$X2
Y <- E + X + rnorm(N) # so we expect estimate for E that we want to recover is 1
X <- as.factor(X)
lmm <- lmer(Y ~ E + (1|X))
simvec.E[i] <- summary(lmm)$coef[2]
}
simvec.rho[j] <- mean(simvec.E)
}
ggplot(data.frame(rho = rhos, E = simvec.rho), aes(x = rho, y = E)) + geom_line()
これにより、次のものが生成されます。
したがって、はい、相関が大きくなるときに導入されるバイアスがありますが、0.85程度未満の相関では、これはかなり無視できます。言い換えれば、混合モデルは非常に堅牢に見えます。ここでグループ化因子をシミュレートした方法では、クラスターサイズが非常に小さくなることに注意してください。Nもちろん、実行に時間がかかりますが、増加するとクラスターが大きくなります。N <- 1000私は取得します:
これはかなりの改善です。もちろん、標準誤差、その他のサンプルサイズ/デザイン、ランダムな傾きなども確認できますが、それは別の日に残しておきます。
この問題が発生した実際のデータでは、固定効果モデルと変量効果を常に比較したいと思います。
変量効果モデルは、観測されていない不変のユニットレベルの不均一性を制御しません($\alpha_i$Verbeekからの抜粋)。モデルから因果関係を主張することを意図していて、それを信じる理由がある場合$\alpha_i$が対象の因果変数と相関している場合、モデルは問題に関する最良の証拠ではないため、科学界によって拒否されます。どうして?変量効果モデルを実行できる場合は、同じユニットに対して複数の観測値があることを意味するためです。このような状況では、簡単に調整できます$\alpha_i$ したがって、あなたは手元の質問に対して可能な限り最良の証拠を作成しませんでした。
アイデアを修正するには、モデルが次のとおりであると想定します。 $y_{it} = \beta_0 + B_1 X_{it} + \beta_2 D_{it} + \alpha_i + \epsilon_{it}$
と仮定する $i$ 単位を表し、 $t$ 期間を表し、 $y_{it}$ ユニットの観測結果です $i$ 当時の $t$、 $X_{it}$ 共変量のベクトルであり、 $D_{it}$ は因果変数であり、一部のユニットでは時間とともに変化します。 $\alpha_i$は、時不変の観測されない不均一性です。私たちが推定したい量は$\beta_2$、これは治療効果です。さらに、$\alpha_i$ と相関している $D_{it}$。1つの簡単な修正$\alpha_i$ 各ユニットの2つの観測値の差を取り、それを使用してモデルを推定することです(今回は $\alpha_i$、違います)。
$\Delta y_{it} = B_1 \Delta X_{it} + \beta_2 \Delta D_{it} + \Delta \epsilon_{it}$
今、私たちは一貫して推定することができます $\beta_2$ 条件付きの測定されていない交絡がないと仮定します $X$。最初の差分のコストは観測値の損失ですが、ゲインはコストをはるかに上回ります。