Oranlarda iki örneklem farkı: Standart hatayı tahmin etmek neden normallik için bir sorun değil?
Birincisi, bu çok yaygın bir soru gibi görünüyor, ancak söz veriyorum, diğer benzer gönderiler aracılığıyla uzun zamandır araştırdım ve cevap verecek gibi görünen bir çözüm bulamadım. ( Bu ve bu çok yaklaşıyor, ancak ikisinin de tam olarak yanıtladığını sanmıyorum!).
İlk olarak tek örnekli oran durumuyla karşılaştırarak kafa karışıklığımı açıklarken çok ayrıntılı olacağım. Gerçek oranın olup olmadığını test edebiliriz$p$ bir değere eşittir $c$.
$H_0: p = c.$
$H_A: p \neq c.$
İçin $np$ ve $n(1-p)$ yeterince büyük, normale binom yaklaşımı bize $\hat{p} \sim N(p, p(1-p)/n)$. Bu nedenle, test istatistiğini hesapladığımızda,$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$Sıfır hipotezi altında bu, standart normal olarak dağıtılır. Önemlisi, biz edilir değil standart tahmin hatası-null hipotezi ile belirlenir!
Şimdi, bunun yerine oranlardaki fark üzerine bir hipotez testi yapmak istediğimiz iki örnekli durumu ele alıyoruz.
$H_0: p_1 - p_2 = 0.$
$H_A: p_1 - p_2 \neq 0.$
Aynı iki terimli yaklaşım bize şunu verir: $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. O zaman eğer$\tilde{p}$ havuzlanmış orandır ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), Test istatistiğimizin şu şekilde verildiğini biliyorum: $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$
Takip etmediğim can alıcı kısım budur. Tek örnek durumda, did not standart hata-it tahmin boş ile belirlendi. Bu nedenle, standart normalden alıntı yapmak mantıklıdır. İki örnek durumda, do bizim Havuzlanmış oranını kullanarak, standart sapması tahmin var! Yani, temel olarak, bunu yansıtmak için bir tür ayarlama yapmamız gerekmiyor mu? (Yani, bir t testi ile yaptığımız gibi).
Peki bunu nasıl açıklayabilirim? Standart hatası için veriye dayalı bir tahmin kullanıyor olsak da, neden hala standart normalden alıntı yapabiliyoruz?
Sorusu bir t-testinin olana benzer olmakla birlikte nedenini anlıyorum olamaz sadece bir t-testi kullanın (diğer varsayımlar buluştu gerekmez). Şimdiye kadar bir cevap için en iyi girişimim basitçe:
"Evet, standart hatayı tahmin ediyoruz, ancak bu yaklaşım, iki terimliye olan ilk normal yaklaşımımız tarafından yutuldu, çünkü bu sadece yüksek serbestlik derecelerinde zaten çalışıyor"?
Bunun daha iyi bir açıklaması var mı? Bir miktar ayarlamanın gerekli olacağı sezgisel geliyor , ancak biz ayarlamıyoruz.
Neden bahsettiğim iki bağlantının bunu tam olarak kapsamadıklarını düşündüklerine dair kısa bir açıklama için ...
@glen_b'nin cevabı çok iyi ve bir t-testi için gerekli olan teorik varsayımların burada neden geçerli olmadığını açıkça açıklıyor. Ancak, bu sorunu tam olarak açıkladığını görmüyorum. Hem bir hem de iki örnek oran testinden bahsediyor ve benim kafa karışıklığım, bu cephede aynı olduklarını hissetmedikleri. Ancak bu, yukarıdaki en iyi tahminimi bilgilendirmeme yardımcı oluyor, yani normallik yaklaşımımız için yeterince büyük örneklem boyutları için, standart hatayı tahmin etmek temelde konu dışıdır.
Benzer şekilde @ whuber, çok açık bir şekilde (grafiklerle) öğrenci-t dağılımının test istatistiğimizi basit standart normalden daha iyi (ortalama örneklem boyutu için) yaklaşık olmadığını gösteriyor.
Öyleyse, öğrenci-t dağılımının burada neden daha iyi bir seçim olmadığını anlıyorum. Ama benim süregelen kafa karışıklığım basitçe: öğrenci-t doğru çözüm olmasa bile, burada neden herhangi bir ayarlama yapmadığımızı açıklamanın en iyi yolu nedir? Eşdeğer olarak açıklanan bir örnek ve iki örnek durum görüyorum - "bu normal çünkü varyans ortalamaya göre belirleniyor". Ancak vakalar oldukça farklı görünüyor - birinde standart hatayı tahmin ediyoruz, diğerinde tahmin etmiyoruz. Cevap basitçe "iki terimli orantı farkını bir normal ile kestirdiğimizde, standart hatanın tahmini bu yaklaşıma göre önemsizdir, bu yüzden onu görmezden gelebiliriz" mi?
Yanıtlar
Bağlandığınız yanıtta olduğu gibi, yine Slutsky teoremini , özellikle Wikipedia bağlantısındaki üçüncü (oran) formunu kullanıyorsunuz.
Eğer yazarsan $Z_n$ gibi $X_n/Y_n$ nerede
$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$
$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$
nerede $p_0$ null altındaki ortak nüfus oranı ve $n_1$ ve $n_2$ orantılı olarak artırın * (veya alternatif olarak izin vererek $n$ küçüğü olmak $n_1$ ve $n_2$ bunun yerine) o zaman teorem uygulanmalı ve $Y_n$ yakınsamak $1$öyle ki $n\to\infty$ sekans $Z_n$ aynı dağılıma yakınsar $X_n$ yapar (yani standart normal dağılıma).
* bu bölüm, bir dizi benzer olası yolla resmileştirilebilir. $n_1$ ve $n_2$ değerler $n$ onları orantılı tutarken