Menggunakan efek acak untuk menyesuaikan perancu tingkat cluster?

Aug 19 2020

Ada penggunaan penyadapan acak untuk menyesuaikan perancu tingkat cluster yang tidak teramati, seperti yang dijelaskan di sini:

Apakah efek acak mengacaukan variabel?

Bagaimana efek acak menyesuaikan untuk perancu dalam model?

Berdasarkan saran dan contoh dari literatur dengan semangat yang sama, orang akan membayangkan bahwa efek acak dapat digunakan untuk penyesuaian dalam DAG seperti ini, di mana ada perancu yang tidak teramati pada tingkat cluster :

Sebagai contoh, bayangkan sebuah studi klinis di mana rumah sakit berbeda dalam kecenderungan mereka untuk mendaftarkan pasien berisiko tinggi (lebih mungkin mengalami hasil yang merugikan) dan juga dalam kecenderungan mereka untuk memberikan pengobatan yang sedang diteliti, karena karakteristik struktural yang tidak teramati.

Di sisi lain , asumsi inti model efek acak adalah bahwa prediktor (di sini: Perlakuan) tidak berkorelasi dengan penyadapan acak, lihat misalnya Verbeek (2008):

"... mungkin memang begitu $𝛼_i$ [efek acak] dan $x_{it}$[prediktor] berkorelasi, dalam hal ini pendekatan efek acak, mengabaikan korelasi ini, menyebabkan penduga yang tidak konsisten. Kami melihat contoh ini sebelumnya, di mana$𝛼_i$memasukkan kualitas manajemen dan dianggap berkorelasi dengan input lain yang termasuk dalam fungsi produksi. Masalah korelasi antara efek individu$𝛼_i$ dan variabel penjelas di $x_{it}$ dapat ditangani dengan menggunakan pendekatan efek tetap, yang pada dasarnya menghilangkan $𝛼_i$ dari model, dan dengan demikian menghilangkan masalah yang mungkin ditimbulkannya. "

atau Setodji dan Shwartz (2013):

"... mendasarkan pilihan jenis model mereka pada apakah variabel dihilangkan invarian waktu yang tidak teramati, yang ditangkap di $\phi_j$[efek acak], tidak berkorelasi dengan prediktor utama yang menarik. Jika tidak berkorelasi (asumsi yang dapat dinilai menggunakan uji Hausman), model efek acak sesuai; jika tidak, model efek tetap digunakan. "

Jika, menurut definisi, perancu berkorelasi dengan pemaparan, dan model efek acak mengasumsikan tidak adanya korelasi antara efek acak dan keterpaparan, bagaimana efek acak kemudian digunakan untuk menyesuaikan untuk perancu?

Referensi

  • Verbeek, M. (2008). Panduan ekonometrik modern. John Wiley & Sons.
  • Setodji, CM, & Shwartz, M. (2013). Model efek-tetap atau efek-acak: apa masalah kesimpulan utamanya ?. Perawatan medis, 51 (1), 25-27.

Jawaban

5 RobertLong Aug 19 2020 at 21:59

Hal tentang asumsi, adalah bahwa asumsi itu ada untuk dilanggar. Jarang, bahkan tidak mungkin dalam studi observasional untuk 2 variabel memiliki korelasi nol. Korelasi diharapkan, bahkan jika itu hanya karena pengambilan sampel acak dan tidak membingungkan atau mekanisme sebab akibat lainnya. Pertanyaan yang menarik adalah: sejauh mana asumsi tersebut dilontarkan, dan seberapa kuat model tertentu untuk pelanggaran semacam itu. Poin pertama bersifat subyektif dan yang terakhir bisa sangat sulit untuk dibuat di semua model kecuali model sederhana. Seperti biasa, simulasi bisa menjadi teman Anda, jadi mari kita lihat menggunakan contoh Anda:

Di sini kami akan mensimulasikan data sehingga perancu Xsangat berkorelasi dengan eksposur E, dengan korelasi mulai dari 0,5 hingga 0,95

set.seed(15)
N <- 100
n.sim <- 100
simvec.E <- numeric(n.sim)
rhos <- seq(0.5, 0.95, by = 0.05)
simvec.rho <- numeric(length(rhos))

for (j in 1:length(rhos)) {

  Sigma = matrix(c(1, rhos[j], rhos[j], 1), byrow = TRUE, nrow = 2)

  for(i in 1:n.sim) {
    dt <- data.frame(mvrnorm(N, mu = c(0,0), Sigma = Sigma, empirical = TRUE))  

    # put them on a bigger scale, so it's easy to create the group factor
    dt1 <- dt + 5
    dt1 <- dt1 * 10
  
    X <- as.integer(dt1$X1) E <- dt1$X2

    Y <- E + X + rnorm(N)  # so we expect estimate for E that we want to recover is 1
  
    X <- as.factor(X) 
    lmm <- lmer(Y ~ E + (1|X))
    simvec.E[i] <- summary(lmm)$coef[2]
  }
  simvec.rho[j] <- mean(simvec.E)
}

ggplot(data.frame(rho = rhos, E = simvec.rho), aes(x = rho, y = E)) + geom_line()

Ini menghasilkan:

Jadi, ya, ada beberapa bias yang muncul ketika korelasi menjadi besar, tetapi pada korelasi di bawah 0,85 atau lebih, ini cukup dapat diabaikan. Dengan kata lain, model campuran tampaknya cukup kuat. Perhatikan bahwa cara saya mensimulasikan faktor pengelompokan di sini mengarah ke ukuran cluster yang cukup kecil. Peningkatan Nakan menghasilkan cluster yang lebih besar, meskipun ini membutuhkan waktu lebih lama untuk dijalankan. Dengan N <- 1000saya dapatkan:

yang merupakan peningkatan yang cukup besar. Tentu saja kami juga dapat melihat kesalahan standar, dan ukuran / desain sampel lainnya, kemiringan acak, dll. Tetapi saya akan meninggalkannya untuk hari lain.

Dengan data nyata di mana masalah ini muncul, saya selalu ingin membandingkan model efek tetap serta efek acak.

Student Oct 09 2020 at 23:45

Model efek acak tidak mengontrol heterogenitas tingkat unit invarian yang tidak teramati ($\alpha_i$dalam kutipan Anda dari Verbeek). Jika niat Anda adalah membuat klaim kausal dari model dan Anda memiliki alasan untuk mempercayainya$\alpha_i$berkorelasi dengan variabel penyebab yang menarik, model Anda akan ditolak oleh komunitas ilmiah karena itu bukan bukti terbaik tentang masalah tersebut. Mengapa? Karena jika Anda dapat menjalankan model efek acak, ini berarti Anda memiliki beberapa pengamatan untuk unit yang sama. Dalam situasi seperti itu, Anda dapat dengan mudah menyesuaikan$\alpha_i$ dan dengan demikian Anda tidak memberikan bukti terbaik untuk pertanyaan yang ada.

Untuk memperbaiki ide, asumsikan model Anda adalah: $y_{it} = \beta_0 + B_1 X_{it} + \beta_2 D_{it} + \alpha_i + \epsilon_{it}$

Asumsikan bahwa $i$ mewakili unit dan $t$ mewakili periode waktu, $y_{it}$ adalah hasil yang diamati untuk unit $i$ pada waktu $t$, $X_{it}$ adalah vektor kovariat, $D_{it}$ adalah variabel penyebab, yang bervariasi dari waktu ke waktu untuk beberapa unit, dan $\alpha_i$adalah heterogenitas teramati invarian-waktu. Kuantitas yang ingin kami perkirakan adalah$\beta_2$, yang merupakan efek pengobatan. Selanjutnya, asumsikan itu$\alpha_i$ berkorelasi dengan $D_{it}$. Satu perbaikan mudah untuk$\alpha_i$ adalah mengambil perbedaan antara dua pengamatan untuk setiap unit dan menggunakannya untuk memperkirakan model (kali ini tanpa $\alpha_i$, yang dibedakan).

$\Delta y_{it} = B_1 \Delta X_{it} + \beta_2 \Delta D_{it} + \Delta \epsilon_{it}$

Sekarang, kami dapat memperkirakan secara konsisten $\beta_2$ dengan asumsi bahwa kita tidak memiliki kondisi perancu yang tidak terukur $X$. Biaya untuk pembedaan pertama adalah hilangnya observasi tetapi kami mendapatkan keuntungan yang jauh melebihi biayanya.