จะเปรียบเทียบตัวอย่างกับตัวอย่างข้อมูลได้อย่างไร?

Aug 17 2020

ฉันตระหนักดีว่า $t$- การทดสอบมักใช้เพื่อตรวจสอบว่าตัวอย่างเป็นของประชากรหรือไม่หรือสองตัวอย่างต่างกัน

แล้วถ้าคุณมีตัวอย่าง $n=200$และคุณต้องการตรวจสอบความน่าจะเป็นที่ตัวอย่างใหม่แต่ละตัวอย่างเป็นส่วนหนึ่งของตัวอย่างนั้น หรือฉันแค่อยากรู้ว่าตัวอย่างการกระจายตัวอยู่ที่ไหน!

คำตอบ

3 BruceET Aug 17 2020 at 21:06

คำถามนี้คล้ายกับคำถามในลิงก์ของ @ StatsStudent ซึ่งคุณควรอ่าน อย่างไรก็ตามข้อแตกต่างที่สำคัญและสำคัญคือตัวอย่างเปรียบเทียบของคุณมีขนาดใหญ่กว่ามาก$n = 200.$

สมมติว่าคุณมีประชากรปกติ $\mathsf{Norm}(\mu=100, \sigma=15)$ และข้อสังเกตเพิ่มเติม $X = 130.$คุณสามารถถามได้ว่าการสังเกตใหม่อาจมาจากประชากรนั้นเป็นไปได้มากน้อยเพียงใด คำตอบแบบเดิมก็คือ$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ ดังนั้นหากคุณตีความว่านี่เป็นค่า P คุณอาจจะบอกว่าอาจจะไม่ใช่ (หากคุณต้องการทดสอบที่ระดับ 5%)

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

สมมติว่าคุณมีตัวอย่างขนาด $n = 200.$ ไม่รู้จักคุณมาจาก $\mathsf{Norm}(\mu=100, \sigma=15).$คุณยินดีที่จะถือว่าการสังเกตของคุณใหม่จากประชากรที่มีความแปรปรวนเช่นเดียวกับตัวอย่างของคุณ 200 จากนั้นคุณสามารถทำที่รวบรวมการทดสอบที 2 ตัวอย่างและคุณอาจสรุปได้สังเกตใหม่อาจมีมาประชากรเดียวกันเพราะ P-value คือ 0.078 (หากคุณต้องการทดสอบที่ระดับ 5%)

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

กลุ่มอ้างอิงที่คล้ายกันมากกว่าครึ่งหนึ่งอาจนำไปสู่การปฏิเสธ:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711