ความแตกต่างสองตัวอย่างในสัดส่วน: เหตุใดการประมาณข้อผิดพลาดมาตรฐานจึงไม่เป็นปัญหาสำหรับความปกติ
อย่างแรกนี่เป็นคำถามที่พบบ่อยมาก แต่ฉันสัญญาว่าฉันค้นหามานานแล้วจากโพสต์อื่น ๆ ที่คล้ายกันและยังไม่พบวิธีแก้ปัญหาที่ดูเหมือนจะให้คำตอบ ( สิ่งนี้และสิ่งนี้เข้ามาใกล้มาก แต่ฉันไม่คิดว่ามันจะตอบโจทย์ได้!)
ฉันจะอธิบายความสับสนของฉันอย่างละเอียดถี่ถ้วนโดยเปรียบเทียบก่อนกับกรณีสัดส่วนตัวอย่างเดียว เราสามารถทดสอบได้ว่าสัดส่วนที่แท้จริง$p$ เท่ากับค่าบางค่า $c$.
$H_0: p = c.$
$H_A: p \neq c.$
สำหรับ $np$ และ $n(1-p)$ มีขนาดใหญ่เพียงพอการประมาณทวินามกับค่าปกติทำให้เราได้ $\hat{p} \sim N(p, p(1-p)/n)$. ดังนั้นเมื่อเราคำนวณสถิติการทดสอบ$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$ภายใต้สมมติฐานว่างสิ่งนี้จะกระจายตามมาตรฐานปกติ ที่สำคัญเราไม่ได้ประมาณข้อผิดพลาดมาตรฐาน - มันถูกกำหนดโดยสมมติฐานว่าง!
ตอนนี้เราพิจารณากรณีตัวอย่างสองกรณีแทนซึ่งเราต้องการเรียกใช้การทดสอบสมมติฐานเกี่ยวกับความแตกต่างในสัดส่วน
$H_0: p_1 - p_2 = 0.$
$H_A: p_1 - p_2 \neq 0.$
การประมาณทวินามเดียวกันให้เรา $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. จากนั้นถ้า$\tilde{p}$ เป็นสัดส่วนรวม ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$) ฉันรู้ว่าสถิติการทดสอบของเราได้รับจาก $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$
นี่เป็นส่วนสำคัญที่ฉันไม่ปฏิบัติตาม ในกรณีตัวอย่างเดียวเราไม่ได้ประมาณข้อผิดพลาดมาตรฐาน - มันถูกกำหนดโดยค่าว่าง ดังนั้นการอ้างถึงมาตรฐานปกติจึงสมเหตุสมผล ในกรณีที่สองตัวอย่างที่เราจะต้องประเมินข้อผิดพลาดมาตรฐานโดยใช้สัดส่วน pooled ของเรา! ดังนั้นโดยพื้นฐานแล้วเราไม่ควรต้องปรับตัวเพื่อสะท้อนสิ่งนี้หรือไม่? (กล่าวคือเหมือนกับสิ่งที่เราทำกับ t-test)
ฉันจะอธิบายเรื่องนี้ได้อย่างไร? เหตุใดเราจึงยังคงอ้างถึงมาตรฐานปกติได้แม้ว่าเราจะใช้การประมาณตามข้อมูลสำหรับข้อผิดพลาดมาตรฐานก็ตาม
แม้ว่าคำถามจะคล้ายคลึงกับ t-test แต่ฉันก็เข้าใจว่าทำไมเราไม่สามารถใช้ t-test ได้ (เราไม่พบสมมติฐานอื่น ๆ ) ความพยายามที่ดีที่สุดของฉันในการหาคำตอบคือ:
“ ใช่เรากำลังประเมินข้อผิดพลาดมาตรฐาน แต่การประมาณนั้นถูกกลืนหายไปกับการประมาณปกติเดิมของเรากับทวินามเพราะมันทำงานได้ในระดับอิสระเท่านั้น”?
มีคำอธิบายที่ดีกว่านั้นหรือไม่? รู้สึกโดยสัญชาตญาณว่าการปรับเปลี่ยนบางอย่างอาจจำเป็น แต่เราไม่ได้ทำ
สำหรับคำอธิบายสั้น ๆ ว่าเหตุใดลิงก์ทั้งสองที่ฉันอ้างถึงจึงรู้สึกว่ามันไม่ค่อยครอบคลุมสิ่งนี้ ...
คำตอบของ@glen_bนั้นดีมากและอธิบายได้อย่างชัดเจนว่าเหตุใดสมมติฐานทางทฤษฎีที่จำเป็นสำหรับการทดสอบ t จึงไม่อยู่ที่นี่ อย่างไรก็ตามฉันไม่เห็นว่ามันอธิบายปัญหานี้อย่างแน่นอน มันกล่าวถึงการทดสอบสัดส่วนตัวอย่างทั้งหนึ่งและสองตัวอย่างและความสับสนของฉันคือพวกเขาไม่รู้สึกว่ามันเหมือนกันในด้านหน้านี้ แต่สิ่งนี้ช่วยบอกการคาดเดาที่ดีที่สุดของฉันข้างต้นซึ่งก็คือสำหรับตัวอย่างที่มีขนาดใหญ่พอสำหรับการประมาณค่าปกติการประมาณข้อผิดพลาดมาตรฐานนั้นไม่เกี่ยวข้องโดยทั่วไป
ในทำนองเดียวกัน@ whuberแสดงให้เห็นอย่างชัดเจน (พร้อมพล็อต) ว่าการแจกแจงของนักเรียนไม่ได้ประมาณสถิติการทดสอบของเราดีกว่า (สำหรับกลุ่มตัวอย่างขนาดปานกลาง) มากกว่าค่ามาตรฐานทั่วไป
ดังนั้นฉันจึงเข้าใจว่าทำไมการแจกแจงนักเรียนจึงไม่ใช่ทางเลือกที่ดีกว่าที่นี่ แต่ความสับสนที่ค้างคาของฉันเป็นเพียง: แม้ว่านักเรียนจะไม่ได้รับการแก้ไขที่ถูกต้อง แต่วิธีใดที่ดีที่สุดในการอธิบายว่าเหตุใดเราจึงไม่จัดเตรียมการปรับเปลี่ยนใด ๆ ฉันเห็นตัวอย่างเดียวและสองกรณีตัวอย่างที่อธิบายไว้ในทำนองเดียวกัน - "เป็นเรื่องปกติเพราะความแปรปรวนถูกกำหนดโดยค่าเฉลี่ย" แต่กรณีนี้ดูเหมือนจะแตกต่างกันมาก - ในกรณีหนึ่งเราประเมินข้อผิดพลาดมาตรฐานในอีกกรณีหนึ่งเราไม่ทำ คำตอบคือ "เมื่อเราประมาณความแตกต่างของสัดส่วนทวินามกับค่าปกติแล้วการประมาณข้อผิดพลาดมาตรฐานนั้นสัมพันธ์กับการประมาณนั้นเล็กน้อยดังนั้นเราจึงสามารถเพิกเฉยได้"
คำตอบ
ในคำตอบที่คุณเชื่อมโยงคุณใช้ทฤษฎีบทของ Slutskyอีกครั้งโดยเฉพาะรูปแบบที่สาม (อัตราส่วน) ที่ลิงค์ Wikipedia
ถ้าคุณเขียน $Z_n$ เช่น $X_n/Y_n$ ที่ไหน
$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$
$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$
ที่ไหน $p_0$ คือสัดส่วนประชากรทั่วไปภายใต้ค่าว่างและ $n_1$ และ $n_2$ เพิ่มขึ้นตามสัดส่วน * (หรืออีกทางเลือกหนึ่งคือให้ $n$ มีขนาดเล็กลง $n_1$ และ $n_2$ แทน) จากนั้นควรใช้ทฤษฎีบทและ $Y_n$ มาบรรจบกับ $1$, เพื่อให้เป็น $n\to\infty$ ลำดับ $Z_n$ มาบรรจบกับการกระจายเดียวกัน $X_n$ ไม่ (เช่นการแจกแจงปกติมาตรฐาน)
* ส่วนนี้สามารถทำให้เป็นทางการได้หลายวิธีที่คล้ายกันซึ่งเกี่ยวข้องกับลำดับของ $n_1$ และ $n_2$ ค่าเป็น $n$ ในขณะที่ถือไว้ตามสัดส่วน