การใช้เอฟเฟกต์แบบสุ่มเพื่อปรับสำหรับการสับสนระดับคลัสเตอร์?
มีการใช้การดักจับแบบสุ่มเพื่อปรับสำหรับการสับสนในระดับคลัสเตอร์ที่ไม่มีใครสังเกตได้ดังตัวอย่างที่โต้แย้งที่นี่:
เอฟเฟกต์สุ่มทำให้ตัวแปรสับสนหรือไม่?
เอฟเฟกต์แบบสุ่มจะปรับอย่างไรเพื่อให้เกิดความสับสนในโมเดล
จากคำแนะนำและตัวอย่างจากวรรณกรรมที่มีจิตวิญญาณคล้ายกันนี้เราจะจินตนาการได้ว่าเอฟเฟกต์แบบสุ่มสามารถใช้สำหรับการปรับแต่งใน DAG เช่นนี้ซึ่งมีผู้กำหนดค่าที่ไม่สามารถสังเกตได้ในระดับคลัสเตอร์ :

ตัวอย่างเช่นลองนึกภาพการศึกษาทางคลินิกที่โรงพยาบาลมีแนวโน้มที่จะลงทะเบียนผู้ป่วยที่มีความเสี่ยงสูง (มีแนวโน้มที่จะได้รับผลลัพธ์ที่ไม่พึงประสงค์มากกว่า) และยังมีแนวโน้มที่จะให้การรักษาภายใต้การศึกษาเนื่องจากลักษณะโครงสร้างที่ไม่สามารถสังเกตได้
ในทางกลับกันสมมติฐานหลักของแบบจำลองเอฟเฟกต์แบบสุ่มคือตัวทำนาย (ที่นี่: การรักษา) ไม่เกี่ยวข้องกับการสกัดกั้นแบบสุ่มดูตัวอย่างเช่น Verbeek (2008):
"... ก็อาจจะเป็นอย่างนั้น $𝛼_i$ [เอฟเฟกต์แบบสุ่ม] และ $x_{it}$[ตัวทำนาย] มีความสัมพันธ์ซึ่งในกรณีนี้วิธีการสุ่มผลโดยไม่สนใจความสัมพันธ์นี้จะนำไปสู่การประมาณค่าที่ไม่สอดคล้องกัน เราเห็นตัวอย่างก่อนหน้านี้แล้วที่ไหน$𝛼_i$รวมถึงคุณภาพการจัดการและเป็นที่ถกเถียงกันว่ามีความสัมพันธ์กับปัจจัยการผลิตอื่น ๆ ที่รวมอยู่ในฟังก์ชันการผลิต ปัญหาของความสัมพันธ์ระหว่างผลกระทบของแต่ละบุคคล$𝛼_i$ และตัวแปรอธิบายใน $x_{it}$ สามารถจัดการได้โดยใช้วิธีเอฟเฟกต์คงที่ซึ่งจะกำจัดไฟล์ $𝛼_i$ จากแบบจำลองดังนั้นจึงช่วยขจัดปัญหาที่อาจเกิดขึ้น "
หรือ Setodji และ Shwartz (2013):
"... ขึ้นอยู่กับการเลือกประเภทของโมเดลโดยพิจารณาจากตัวแปรที่ละเว้นไม่ระบุเวลาที่ไม่ได้บันทึกไว้ซึ่งถูกบันทึกในรูปแบบ $\phi_j$[เอฟเฟกต์แบบสุ่ม] ไม่เกี่ยวข้องกับตัวทำนายความสนใจหลัก หากไม่สัมพันธ์กัน (ข้อสันนิษฐานที่สามารถประเมินได้โดยใช้การทดสอบเฮาส์แมน) แบบจำลองเอฟเฟกต์สุ่มก็เหมาะสม มิฉะนั้นจะใช้โมเดลเอฟเฟกต์คงที่ "
หากตามความหมายแล้วผู้สับสนมีความสัมพันธ์กับการเปิดรับแสงและแบบจำลองเอฟเฟกต์แบบสุ่มถือว่าไม่มีความสัมพันธ์กันของเอฟเฟกต์แบบสุ่มและการเปิดรับแสงเอฟเฟกต์แบบสุ่มจะใช้เพื่อปรับให้เกิดความสับสนได้อย่างไร
อ้างอิง
- Verbeek, M. (2008). คู่มือเศรษฐมิติสมัยใหม่ John Wiley & Sons
- Setodji, CM, & Shwartz, M. (2013). โมเดลเอฟเฟกต์คงที่หรือเอฟเฟกต์สุ่ม: ปัญหาการอนุมานที่สำคัญคืออะไร. การดูแลทางการแพทย์, 51 (1), 25-27.
คำตอบ
สิ่งที่เกี่ยวกับสมมติฐานคือว่าพวกเขาจะถูกละเมิด เป็นเรื่องที่หายากหากไม่เป็นไปไม่ได้ในการศึกษาเชิงสังเกตสำหรับ 2 ตัวแปรที่มีความสัมพันธ์เป็นศูนย์ คาดว่าจะมีความสัมพันธ์กันแม้ว่าจะเกิดจากการสุ่มตัวอย่างแบบสุ่มและไม่ทำให้เกิดความสับสนหรือกลไกเชิงสาเหตุอื่น ๆ คำถามที่น่าสนใจคือสมมติฐานที่กระตุ้นให้เกิดความผันผวนและรูปแบบเฉพาะสำหรับการละเมิดดังกล่าวแข็งแกร่งเพียงใด ประเด็นแรกเป็นเรื่องส่วนตัวและประเด็นหลังอาจเป็นเรื่องยากที่จะสร้างในแบบจำลองทั้งหมดยกเว้นแบบเรียบง่าย ตามปกติการจำลองสามารถเป็นเพื่อนของคุณได้ดังนั้นลองมาดูตัวอย่างของคุณ:
ที่นี่เราจะจำลองข้อมูลเพื่อให้ผู้สับสนX
มีความสัมพันธ์อย่างมากกับการเปิดเผยE
โดยมีความสัมพันธ์ตั้งแต่ 0.5 ถึง 0.95
set.seed(15)
N <- 100
n.sim <- 100
simvec.E <- numeric(n.sim)
rhos <- seq(0.5, 0.95, by = 0.05)
simvec.rho <- numeric(length(rhos))
for (j in 1:length(rhos)) {
Sigma = matrix(c(1, rhos[j], rhos[j], 1), byrow = TRUE, nrow = 2)
for(i in 1:n.sim) {
dt <- data.frame(mvrnorm(N, mu = c(0,0), Sigma = Sigma, empirical = TRUE))
# put them on a bigger scale, so it's easy to create the group factor
dt1 <- dt + 5
dt1 <- dt1 * 10
X <- as.integer(dt1$X1) E <- dt1$X2
Y <- E + X + rnorm(N) # so we expect estimate for E that we want to recover is 1
X <- as.factor(X)
lmm <- lmer(Y ~ E + (1|X))
simvec.E[i] <- summary(lmm)$coef[2]
}
simvec.rho[j] <- mean(simvec.E)
}
ggplot(data.frame(rho = rhos, E = simvec.rho), aes(x = rho, y = E)) + geom_line()
สิ่งนี้ก่อให้เกิด:

ใช่แล้วความลำเอียงบางอย่างถูกนำมาใช้เมื่อความสัมพันธ์มีขนาดใหญ่ แต่เมื่อมีความสัมพันธ์ต่ำกว่า 0.85 หรือมากกว่านั้นสิ่งนี้ค่อนข้างน้อยมาก กล่าวอีกนัยหนึ่งโมเดลแบบผสมดูเหมือนจะค่อนข้างแข็งแกร่ง โปรดทราบว่าวิธีที่ฉันจำลองปัจจัยการจัดกลุ่มที่นี่นำไปสู่ขนาดคลัสเตอร์ที่ค่อนข้างเล็ก การเพิ่มขึ้นN
จะนำไปสู่คลัสเตอร์ที่ใหญ่ขึ้นแม้ว่าจะใช้เวลานานกว่าจะทำงานได้แน่นอน เมื่อN <- 1000
ฉันได้รับ:

ซึ่งเป็นการปรับปรุงที่ดีมาก แน่นอนว่าเราสามารถดูข้อผิดพลาดมาตรฐานและขนาด / การออกแบบตัวอย่างอื่น ๆ ความลาดชันแบบสุ่ม ฯลฯ แต่ฉันจะปล่อยไว้อีกวัน
ด้วยข้อมูลจริงที่เกิดปัญหานี้ฉันมักจะต้องการเปรียบเทียบโมเดลเอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่ม
แบบจำลองเอฟเฟกต์สุ่มไม่ได้ควบคุมความแตกต่างของระดับหน่วยคงที่ที่ไม่สามารถสังเกตได้($\alpha_i$ในข้อความที่ตัดตอนมาจาก Verbeek) หากคุณมีเจตนาที่จะอ้างเหตุผลจากแบบจำลองและคุณมีเหตุผลที่จะเชื่อเช่นนั้น$\alpha_i$มีความสัมพันธ์กับตัวแปรเชิงสาเหตุของความสนใจแบบจำลองของคุณจะถูกปฏิเสธโดยชุมชนวิทยาศาสตร์เนื่องจากไม่ใช่หลักฐานที่ดีที่สุดที่เป็นไปได้ในประเด็นนี้ ทำไม? เนื่องจากถ้าคุณสามารถเรียกใช้แบบจำลองเอฟเฟกต์สุ่มแสดงว่าคุณมีข้อสังเกตหลายประการสำหรับหน่วยเดียวกัน ในสถานการณ์เช่นนี้คุณสามารถปรับเปลี่ยนได้อย่างง่ายดาย$\alpha_i$ ดังนั้นคุณจึงไม่ได้แสดงหลักฐานที่ดีที่สุดเท่าที่จะเป็นไปได้สำหรับคำถามในมือ
ในการแก้ไขแนวคิดสมมติว่าโมเดลของคุณคือ: $y_{it} = \beta_0 + B_1 X_{it} + \beta_2 D_{it} + \alpha_i + \epsilon_{it}$
สมมติว่า $i$ แสดงถึงหน่วยและ $t$ แสดงถึงช่วงเวลา $y_{it}$ คือผลลัพธ์ที่สังเกตได้สำหรับหน่วย $i$ ในเวลา $t$, $X_{it}$ เป็นเวกเตอร์ของความแปรปรวนร่วม $D_{it}$ เป็นตัวแปรเชิงสาเหตุซึ่งแตกต่างกันไปตามช่วงเวลาสำหรับบางหน่วยและ $\alpha_i$คือความแตกต่างระหว่างเวลาที่ไม่สามารถสังเกตได้ ปริมาณที่เราสนใจในการประมาณคือ$\beta_2$ซึ่งเป็นผลการรักษา นอกจากนี้สมมติว่า$\alpha_i$ มีความสัมพันธ์กับ $D_{it}$. วิธีแก้ไขง่ายๆสำหรับ$\alpha_i$ คือการใช้ความแตกต่างระหว่างการสังเกตสองครั้งสำหรับแต่ละหน่วยและใช้เพื่อประมาณแบบจำลอง (เวลานี้ไม่มี $\alpha_i$ซึ่งแตกต่างออกไป)
$\Delta y_{it} = B_1 \Delta X_{it} + \beta_2 \Delta D_{it} + \Delta \epsilon_{it}$
ตอนนี้เราสามารถประมาณได้อย่างสม่ำเสมอ $\beta_2$ สมมติว่าเราไม่มีเงื่อนไขที่สับสนที่ไม่สามารถประเมินได้ $X$. ค่าใช้จ่ายสำหรับการสร้างความแตกต่างครั้งแรกคือการสูญเสียการสังเกต แต่เราได้รับผลตอบแทนที่มากกว่าต้นทุน