การใช้เอฟเฟกต์แบบสุ่มเพื่อปรับสำหรับการสับสนระดับคลัสเตอร์?

Aug 19 2020

มีการใช้การดักจับแบบสุ่มเพื่อปรับสำหรับการสับสนในระดับคลัสเตอร์ที่ไม่มีใครสังเกตได้ดังตัวอย่างที่โต้แย้งที่นี่:

เอฟเฟกต์สุ่มทำให้ตัวแปรสับสนหรือไม่?

เอฟเฟกต์แบบสุ่มจะปรับอย่างไรเพื่อให้เกิดความสับสนในโมเดล

จากคำแนะนำและตัวอย่างจากวรรณกรรมที่มีจิตวิญญาณคล้ายกันนี้เราจะจินตนาการได้ว่าเอฟเฟกต์แบบสุ่มสามารถใช้สำหรับการปรับแต่งใน DAG เช่นนี้ซึ่งมีผู้กำหนดค่าที่ไม่สามารถสังเกตได้ในระดับคลัสเตอร์ :

ตัวอย่างเช่นลองนึกภาพการศึกษาทางคลินิกที่โรงพยาบาลมีแนวโน้มที่จะลงทะเบียนผู้ป่วยที่มีความเสี่ยงสูง (มีแนวโน้มที่จะได้รับผลลัพธ์ที่ไม่พึงประสงค์มากกว่า) และยังมีแนวโน้มที่จะให้การรักษาภายใต้การศึกษาเนื่องจากลักษณะโครงสร้างที่ไม่สามารถสังเกตได้

ในทางกลับกันสมมติฐานหลักของแบบจำลองเอฟเฟกต์แบบสุ่มคือตัวทำนาย (ที่นี่: การรักษา) ไม่เกี่ยวข้องกับการสกัดกั้นแบบสุ่มดูตัวอย่างเช่น Verbeek (2008):

"... ก็อาจจะเป็นอย่างนั้น $𝛼_i$ [เอฟเฟกต์แบบสุ่ม] และ $x_{it}$[ตัวทำนาย] มีความสัมพันธ์ซึ่งในกรณีนี้วิธีการสุ่มผลโดยไม่สนใจความสัมพันธ์นี้จะนำไปสู่การประมาณค่าที่ไม่สอดคล้องกัน เราเห็นตัวอย่างก่อนหน้านี้แล้วที่ไหน$𝛼_i$รวมถึงคุณภาพการจัดการและเป็นที่ถกเถียงกันว่ามีความสัมพันธ์กับปัจจัยการผลิตอื่น ๆ ที่รวมอยู่ในฟังก์ชันการผลิต ปัญหาของความสัมพันธ์ระหว่างผลกระทบของแต่ละบุคคล$𝛼_i$ และตัวแปรอธิบายใน $x_{it}$ สามารถจัดการได้โดยใช้วิธีเอฟเฟกต์คงที่ซึ่งจะกำจัดไฟล์ $𝛼_i$ จากแบบจำลองดังนั้นจึงช่วยขจัดปัญหาที่อาจเกิดขึ้น "

หรือ Setodji และ Shwartz (2013):

"... ขึ้นอยู่กับการเลือกประเภทของโมเดลโดยพิจารณาจากตัวแปรที่ละเว้นไม่ระบุเวลาที่ไม่ได้บันทึกไว้ซึ่งถูกบันทึกในรูปแบบ $\phi_j$[เอฟเฟกต์แบบสุ่ม] ไม่เกี่ยวข้องกับตัวทำนายความสนใจหลัก หากไม่สัมพันธ์กัน (ข้อสันนิษฐานที่สามารถประเมินได้โดยใช้การทดสอบเฮาส์แมน) แบบจำลองเอฟเฟกต์สุ่มก็เหมาะสม มิฉะนั้นจะใช้โมเดลเอฟเฟกต์คงที่ "

หากตามความหมายแล้วผู้สับสนมีความสัมพันธ์กับการเปิดรับแสงและแบบจำลองเอฟเฟกต์แบบสุ่มถือว่าไม่มีความสัมพันธ์กันของเอฟเฟกต์แบบสุ่มและการเปิดรับแสงเอฟเฟกต์แบบสุ่มจะใช้เพื่อปรับให้เกิดความสับสนได้อย่างไร

อ้างอิง

Verbeek, M. (2008). คู่มือเศรษฐมิติสมัยใหม่ John Wiley & Sons
Setodji, CM, & Shwartz, M. (2013). โมเดลเอฟเฟกต์คงที่หรือเอฟเฟกต์สุ่ม: ปัญหาการอนุมานที่สำคัญคืออะไร. การดูแลทางการแพทย์, 51 (1), 25-27.

คำตอบ

5 RobertLong Aug 19 2020 at 21:59

สิ่งที่เกี่ยวกับสมมติฐานคือว่าพวกเขาจะถูกละเมิด เป็นเรื่องที่หายากหากไม่เป็นไปไม่ได้ในการศึกษาเชิงสังเกตสำหรับ 2 ตัวแปรที่มีความสัมพันธ์เป็นศูนย์ คาดว่าจะมีความสัมพันธ์กันแม้ว่าจะเกิดจากการสุ่มตัวอย่างแบบสุ่มและไม่ทำให้เกิดความสับสนหรือกลไกเชิงสาเหตุอื่น ๆ คำถามที่น่าสนใจคือสมมติฐานที่กระตุ้นให้เกิดความผันผวนและรูปแบบเฉพาะสำหรับการละเมิดดังกล่าวแข็งแกร่งเพียงใด ประเด็นแรกเป็นเรื่องส่วนตัวและประเด็นหลังอาจเป็นเรื่องยากที่จะสร้างในแบบจำลองทั้งหมดยกเว้นแบบเรียบง่าย ตามปกติการจำลองสามารถเป็นเพื่อนของคุณได้ดังนั้นลองมาดูตัวอย่างของคุณ:

ที่นี่เราจะจำลองข้อมูลเพื่อให้ผู้สับสนXมีความสัมพันธ์อย่างมากกับการเปิดเผยEโดยมีความสัมพันธ์ตั้งแต่ 0.5 ถึง 0.95

set.seed(15)
N <- 100
n.sim <- 100
simvec.E <- numeric(n.sim)
rhos <- seq(0.5, 0.95, by = 0.05)
simvec.rho <- numeric(length(rhos))

for (j in 1:length(rhos)) {

  Sigma = matrix(c(1, rhos[j], rhos[j], 1), byrow = TRUE, nrow = 2)

  for(i in 1:n.sim) {
    dt <- data.frame(mvrnorm(N, mu = c(0,0), Sigma = Sigma, empirical = TRUE))  

    # put them on a bigger scale, so it's easy to create the group factor
    dt1 <- dt + 5
    dt1 <- dt1 * 10
  
    X <- as.integer(dt1$X1) E <- dt1$X2

    Y <- E + X + rnorm(N)  # so we expect estimate for E that we want to recover is 1
  
    X <- as.factor(X) 
    lmm <- lmer(Y ~ E + (1|X))
    simvec.E[i] <- summary(lmm)$coef[2]
  }
  simvec.rho[j] <- mean(simvec.E)
}

ggplot(data.frame(rho = rhos, E = simvec.rho), aes(x = rho, y = E)) + geom_line()

สิ่งนี้ก่อให้เกิด:

ใช่แล้วความลำเอียงบางอย่างถูกนำมาใช้เมื่อความสัมพันธ์มีขนาดใหญ่ แต่เมื่อมีความสัมพันธ์ต่ำกว่า 0.85 หรือมากกว่านั้นสิ่งนี้ค่อนข้างน้อยมาก กล่าวอีกนัยหนึ่งโมเดลแบบผสมดูเหมือนจะค่อนข้างแข็งแกร่ง โปรดทราบว่าวิธีที่ฉันจำลองปัจจัยการจัดกลุ่มที่นี่นำไปสู่ขนาดคลัสเตอร์ที่ค่อนข้างเล็ก การเพิ่มขึ้นNจะนำไปสู่คลัสเตอร์ที่ใหญ่ขึ้นแม้ว่าจะใช้เวลานานกว่าจะทำงานได้แน่นอน เมื่อN <- 1000ฉันได้รับ:

ซึ่งเป็นการปรับปรุงที่ดีมาก แน่นอนว่าเราสามารถดูข้อผิดพลาดมาตรฐานและขนาด / การออกแบบตัวอย่างอื่น ๆ ความลาดชันแบบสุ่ม ฯลฯ แต่ฉันจะปล่อยไว้อีกวัน

ด้วยข้อมูลจริงที่เกิดปัญหานี้ฉันมักจะต้องการเปรียบเทียบโมเดลเอฟเฟกต์คงที่และเอฟเฟกต์แบบสุ่ม

Student Oct 09 2020 at 23:45

แบบจำลองเอฟเฟกต์สุ่มไม่ได้ควบคุมความแตกต่างของระดับหน่วยคงที่ที่ไม่สามารถสังเกตได้($\alpha_i$ในข้อความที่ตัดตอนมาจาก Verbeek) หากคุณมีเจตนาที่จะอ้างเหตุผลจากแบบจำลองและคุณมีเหตุผลที่จะเชื่อเช่นนั้น$\alpha_i$มีความสัมพันธ์กับตัวแปรเชิงสาเหตุของความสนใจแบบจำลองของคุณจะถูกปฏิเสธโดยชุมชนวิทยาศาสตร์เนื่องจากไม่ใช่หลักฐานที่ดีที่สุดที่เป็นไปได้ในประเด็นนี้ ทำไม? เนื่องจากถ้าคุณสามารถเรียกใช้แบบจำลองเอฟเฟกต์สุ่มแสดงว่าคุณมีข้อสังเกตหลายประการสำหรับหน่วยเดียวกัน ในสถานการณ์เช่นนี้คุณสามารถปรับเปลี่ยนได้อย่างง่ายดาย$\alpha_i$ ดังนั้นคุณจึงไม่ได้แสดงหลักฐานที่ดีที่สุดเท่าที่จะเป็นไปได้สำหรับคำถามในมือ

ในการแก้ไขแนวคิดสมมติว่าโมเดลของคุณคือ: $y_{it} = \beta_0 + B_1 X_{it} + \beta_2 D_{it} + \alpha_i + \epsilon_{it}$

สมมติว่า $i$ แสดงถึงหน่วยและ $t$ แสดงถึงช่วงเวลา $y_{it}$ คือผลลัพธ์ที่สังเกตได้สำหรับหน่วย $i$ ในเวลา $t$, $X_{it}$ เป็นเวกเตอร์ของความแปรปรวนร่วม $D_{it}$ เป็นตัวแปรเชิงสาเหตุซึ่งแตกต่างกันไปตามช่วงเวลาสำหรับบางหน่วยและ $\alpha_i$คือความแตกต่างระหว่างเวลาที่ไม่สามารถสังเกตได้ ปริมาณที่เราสนใจในการประมาณคือ$\beta_2$ซึ่งเป็นผลการรักษา นอกจากนี้สมมติว่า$\alpha_i$ มีความสัมพันธ์กับ $D_{it}$. วิธีแก้ไขง่ายๆสำหรับ$\alpha_i$ คือการใช้ความแตกต่างระหว่างการสังเกตสองครั้งสำหรับแต่ละหน่วยและใช้เพื่อประมาณแบบจำลอง (เวลานี้ไม่มี $\alpha_i$ซึ่งแตกต่างออกไป)

$\Delta y_{it} = B_1 \Delta X_{it} + \beta_2 \Delta D_{it} + \Delta \epsilon_{it}$

ตอนนี้เราสามารถประมาณได้อย่างสม่ำเสมอ $\beta_2$ สมมติว่าเราไม่มีเงื่อนไขที่สับสนที่ไม่สามารถประเมินได้ $X$. ค่าใช้จ่ายสำหรับการสร้างความแตกต่างครั้งแรกคือการสูญเสียการสังเกต แต่เราได้รับผลตอบแทนที่มากกว่าต้นทุน