Perbedaan dua sampel dalam proporsi: Mengapa estimasi kesalahan standar tidak menjadi masalah normalitas?

Aug 16 2020

Pertama, ini sepertinya pertanyaan yang sangat umum, tetapi saya berjanji bahwa saya telah lama mencari melalui posting serupa lainnya dan belum menemukan solusi yang tampaknya memberikan jawaban. ( Ini dan ini hampir saja, tapi saya rasa keduanya tidak cukup menjawabnya!).

Saya akan sangat teliti menjelaskan kebingungan saya, dengan membandingkannya dulu dengan kasus proporsi satu sampel. Kita bisa menguji apakah proporsinya benar$p$ sama dengan beberapa nilai $c$.

$H_0: p = c.$

$H_A: p \neq c.$

Untuk $np$ dan $n(1-p)$ cukup besar, pendekatan binomial ke normal memberi kita $\hat{p} \sim N(p, p(1-p)/n)$. Jadi, saat kami menghitung statistik pengujian,$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$Di bawah hipotesis nol ini didistribusikan sebagai standar normal. Yang terpenting, kami tidak memperkirakan kesalahan standar - itu ditentukan oleh hipotesis nol!

Sekarang, kami mempertimbangkan kasus dua sampel, di mana kami ingin menjalankan uji hipotesis tentang perbedaan proporsi.

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

Pendekatan binomial yang sama memberi kita $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. Lalu jika$\tilde{p}$ adalah proporsi gabungan ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), Saya tahu bahwa statistik pengujian kami diberikan oleh $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

Ini adalah bagian penting yang tidak saya ikuti. Dalam kasus satu sampel, kami tidak memperkirakan kesalahan standar - itu ditentukan oleh nol. Karenanya, mengutip standar normal masuk akal. Dalam kasus dua sampel, kita lakukan harus memperkirakan standard error, menggunakan proporsi dikumpulkan kami! Jadi, pada dasarnya, bukankah kita harus membuat semacam penyesuaian untuk mencerminkan ini? (Yaitu, seperti yang kami lakukan dengan uji-t).

Jadi, bagaimana saya bisa menjelaskan ini? Mengapa kami masih dapat mengutip standar normal, meskipun kami menggunakan perkiraan berbasis data untuk kesalahan standarnya?

Sementara pertanyaannya analog dengan tes-t, saya mengerti mengapa kita tidak bisa hanya menggunakan uji-t (kita tidak memiliki asumsi lain yang terpenuhi). Upaya terbaik saya untuk mendapatkan jawaban sejauh ini hanyalah:

“Ya, kami memperkirakan kesalahan standar, tetapi perkiraan itu hanya ditelan oleh perkiraan normal asli kami ke binomial, karena itu hanya bekerja pada tingkat kebebasan yang tinggi saja"?

Apakah ada penjelasan yang lebih baik dari itu? Rasanya intuitif bahwa beberapa penyesuaian akan diperlukan, tetapi kami tidak membuatnya.

Untuk penjelasan singkat mengapa kedua tautan yang saya kutip terasa tidak cukup menutupi ini ...

Jawaban @glen_b sangat bagus, dan menjelaskan dengan jelas mengapa asumsi teoritis yang diperlukan untuk uji-t tidak berlaku di sini. Namun, saya tidak melihatnya menjelaskan masalah yang sebenarnya ini. Ini menyebutkan satu dan dua tes proporsi sampel, dan kebingungan saya adalah bahwa mereka tidak merasa mereka sama di bagian depan ini. Tetapi ini membantu menginformasikan tebakan terbaik saya di atas, yaitu untuk ukuran sampel yang cukup besar untuk perkiraan normalitas kami, memperkirakan kesalahan standar pada dasarnya tidak relevan.

Demikian pula, @ whuber dengan sangat jelas menunjukkan (dengan plot) bagaimana distribusi siswa-t tidak mendekati statistik pengujian kami lebih baik (untuk ukuran sampel sedang) daripada standar normal sederhana.

Jadi, saya mengerti mengapa distribusi siswa-t bukanlah pilihan yang lebih baik di sini. Tetapi kebingungan saya yang masih ada hanyalah: bahkan jika siswa-t bukanlah perbaikan yang tepat, apa cara terbaik untuk menjelaskan mengapa kami tidak memberikan penyesuaian apa pun di sini? Saya melihat satu sampel dan dua kasus sampel dijelaskan secara ekuivalen– "itu normal karena varians ditentukan oleh mean". Tetapi kasusnya tampak sangat berbeda - di satu, kami memperkirakan kesalahan standar, di kasus lain, kami tidak. Apakah jawabannya hanya "setelah kita mendekati perbedaan proporsi binomial dengan normal, perkiraan kesalahan standar adalah relatif sepele terhadap perkiraan itu, jadi kita dapat mengabaikannya"?

Jawaban

3 Glen_b Aug 16 2020 at 01:14

Seperti dalam jawaban yang Anda tautkan, Anda kembali menggunakan teorema Slutsky , khususnya bentuk ketiga (rasio) di tautan Wikipedia.

Jika Anda menulis $Z_n$ sebagai $X_n/Y_n$ dimana

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

dimana $p_0$ adalah proporsi populasi umum di bawah nol dan $n_1$ dan $n_2$ meningkat secara proporsional * (atau, sebagai alternatif dengan membiarkan $n$ menjadi lebih kecil dari $n_1$ dan $n_2$ sebagai gantinya) maka teorema harus diterapkan, dan $Y_n$ menyatu dengan $1$, begitu pula $n\to\infty$ urutannya $Z_n$ menyatu ke distribusi yang sama $X_n$ tidak (yaitu ke distribusi normal standar).

* bagian ini dapat diformalkan, dengan beberapa cara yang mirip, menghubungkan urutan $n_1$ dan $n_2$ nilai untuk $n$ sambil menahannya secara proporsional