ความแตกต่างสองตัวอย่างในสัดส่วน: เหตุใดการประมาณข้อผิดพลาดมาตรฐานจึงไม่เป็นปัญหาสำหรับความปกติ

Aug 15 2020

อย่างแรกนี่เป็นคำถามที่พบบ่อยมาก แต่ฉันสัญญาว่าฉันค้นหามานานแล้วจากโพสต์อื่น ๆ ที่คล้ายกันและยังไม่พบวิธีแก้ปัญหาที่ดูเหมือนจะให้คำตอบ ( สิ่งนี้และสิ่งนี้เข้ามาใกล้มาก แต่ฉันไม่คิดว่ามันจะตอบโจทย์ได้!)

ฉันจะอธิบายความสับสนของฉันอย่างละเอียดถี่ถ้วนโดยเปรียบเทียบก่อนกับกรณีสัดส่วนตัวอย่างเดียว เราสามารถทดสอบได้ว่าสัดส่วนที่แท้จริง$p$ เท่ากับค่าบางค่า $c$.

$H_0: p = c.$

$H_A: p \neq c.$

สำหรับ $np$ และ $n(1-p)$ มีขนาดใหญ่เพียงพอการประมาณทวินามกับค่าปกติทำให้เราได้ $\hat{p} \sim N(p, p(1-p)/n)$. ดังนั้นเมื่อเราคำนวณสถิติการทดสอบ$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$ภายใต้สมมติฐานว่างสิ่งนี้จะกระจายตามมาตรฐานปกติ ที่สำคัญเราไม่ได้ประมาณข้อผิดพลาดมาตรฐาน - มันถูกกำหนดโดยสมมติฐานว่าง!

ตอนนี้เราพิจารณากรณีตัวอย่างสองกรณีแทนซึ่งเราต้องการเรียกใช้การทดสอบสมมติฐานเกี่ยวกับความแตกต่างในสัดส่วน

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

การประมาณทวินามเดียวกันให้เรา $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. จากนั้นถ้า$\tilde{p}$ เป็นสัดส่วนรวม ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$) ฉันรู้ว่าสถิติการทดสอบของเราได้รับจาก $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

นี่เป็นส่วนสำคัญที่ฉันไม่ปฏิบัติตาม ในกรณีตัวอย่างเดียวเราไม่ได้ประมาณข้อผิดพลาดมาตรฐาน - มันถูกกำหนดโดยค่าว่าง ดังนั้นการอ้างถึงมาตรฐานปกติจึงสมเหตุสมผล ในกรณีที่สองตัวอย่างที่เราจะต้องประเมินข้อผิดพลาดมาตรฐานโดยใช้สัดส่วน pooled ของเรา! ดังนั้นโดยพื้นฐานแล้วเราไม่ควรต้องปรับตัวเพื่อสะท้อนสิ่งนี้หรือไม่? (กล่าวคือเหมือนกับสิ่งที่เราทำกับ t-test)

ฉันจะอธิบายเรื่องนี้ได้อย่างไร? เหตุใดเราจึงยังคงอ้างถึงมาตรฐานปกติได้แม้ว่าเราจะใช้การประมาณตามข้อมูลสำหรับข้อผิดพลาดมาตรฐานก็ตาม

แม้ว่าคำถามจะคล้ายคลึงกับ t-test แต่ฉันก็เข้าใจว่าทำไมเราไม่สามารถใช้ t-test ได้ (เราไม่พบสมมติฐานอื่น ๆ ) ความพยายามที่ดีที่สุดของฉันในการหาคำตอบคือ:

“ ใช่เรากำลังประเมินข้อผิดพลาดมาตรฐาน แต่การประมาณนั้นถูกกลืนหายไปกับการประมาณปกติเดิมของเรากับทวินามเพราะมันทำงานได้ในระดับอิสระเท่านั้น”?

มีคำอธิบายที่ดีกว่านั้นหรือไม่? รู้สึกโดยสัญชาตญาณว่าการปรับเปลี่ยนบางอย่างอาจจำเป็น แต่เราไม่ได้ทำ

สำหรับคำอธิบายสั้น ๆ ว่าเหตุใดลิงก์ทั้งสองที่ฉันอ้างถึงจึงรู้สึกว่ามันไม่ค่อยครอบคลุมสิ่งนี้ ...

คำตอบของ@glen_bนั้นดีมากและอธิบายได้อย่างชัดเจนว่าเหตุใดสมมติฐานทางทฤษฎีที่จำเป็นสำหรับการทดสอบ t จึงไม่อยู่ที่นี่ อย่างไรก็ตามฉันไม่เห็นว่ามันอธิบายปัญหานี้อย่างแน่นอน มันกล่าวถึงการทดสอบสัดส่วนตัวอย่างทั้งหนึ่งและสองตัวอย่างและความสับสนของฉันคือพวกเขาไม่รู้สึกว่ามันเหมือนกันในด้านหน้านี้ แต่สิ่งนี้ช่วยบอกการคาดเดาที่ดีที่สุดของฉันข้างต้นซึ่งก็คือสำหรับตัวอย่างที่มีขนาดใหญ่พอสำหรับการประมาณค่าปกติการประมาณข้อผิดพลาดมาตรฐานนั้นไม่เกี่ยวข้องโดยทั่วไป

ในทำนองเดียวกัน@ whuberแสดงให้เห็นอย่างชัดเจน (พร้อมพล็อต) ว่าการแจกแจงของนักเรียนไม่ได้ประมาณสถิติการทดสอบของเราดีกว่า (สำหรับกลุ่มตัวอย่างขนาดปานกลาง) มากกว่าค่ามาตรฐานทั่วไป

ดังนั้นฉันจึงเข้าใจว่าทำไมการแจกแจงนักเรียนจึงไม่ใช่ทางเลือกที่ดีกว่าที่นี่ แต่ความสับสนที่ค้างคาของฉันเป็นเพียง: แม้ว่านักเรียนจะไม่ได้รับการแก้ไขที่ถูกต้อง แต่วิธีใดที่ดีที่สุดในการอธิบายว่าเหตุใดเราจึงไม่จัดเตรียมการปรับเปลี่ยนใด ๆ ฉันเห็นตัวอย่างเดียวและสองกรณีตัวอย่างที่อธิบายไว้ในทำนองเดียวกัน - "เป็นเรื่องปกติเพราะความแปรปรวนถูกกำหนดโดยค่าเฉลี่ย" แต่กรณีนี้ดูเหมือนจะแตกต่างกันมาก - ในกรณีหนึ่งเราประเมินข้อผิดพลาดมาตรฐานในอีกกรณีหนึ่งเราไม่ทำ คำตอบคือ "เมื่อเราประมาณความแตกต่างของสัดส่วนทวินามกับค่าปกติแล้วการประมาณข้อผิดพลาดมาตรฐานนั้นสัมพันธ์กับการประมาณนั้นเล็กน้อยดังนั้นเราจึงสามารถเพิกเฉยได้"

คำตอบ

3 Glen_b Aug 16 2020 at 01:14

ในคำตอบที่คุณเชื่อมโยงคุณใช้ทฤษฎีบทของ Slutskyอีกครั้งโดยเฉพาะรูปแบบที่สาม (อัตราส่วน) ที่ลิงค์ Wikipedia

ถ้าคุณเขียน $Z_n$ เช่น $X_n/Y_n$ ที่ไหน

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

ที่ไหน $p_0$ คือสัดส่วนประชากรทั่วไปภายใต้ค่าว่างและ $n_1$ และ $n_2$ เพิ่มขึ้นตามสัดส่วน * (หรืออีกทางเลือกหนึ่งคือให้ $n$ มีขนาดเล็กลง $n_1$ และ $n_2$ แทน) จากนั้นควรใช้ทฤษฎีบทและ $Y_n$ มาบรรจบกับ $1$, เพื่อให้เป็น $n\to\infty$ ลำดับ $Z_n$ มาบรรจบกับการกระจายเดียวกัน $X_n$ ไม่ (เช่นการแจกแจงปกติมาตรฐาน)

* ส่วนนี้สามารถทำให้เป็นทางการได้หลายวิธีที่คล้ายกันซึ่งเกี่ยวข้องกับลำดับของ $n_1$ และ $n_2$ ค่าเป็น $n$ ในขณะที่ถือไว้ตามสัดส่วน