比率の2サンプルの違い:標準誤差の推定が正規性の問題にならないのはなぜですか?

Aug 15 2020

まず、これは非常に一般的な質問のようですが、他の同様の投稿を長い間検索していて、答えを提供しているように見える解決策を完全に見つけていないことを約束します。(これとこれは非常に接近していますが、どちらも完全に答えるとは思いません!)。

最初に1サンプルの比率の場合と比較することにより、混乱を非常に徹底的に説明します。真の比率かどうかをテストできます$p$ ある値に等しい $c$

$H_0: p = c.$

$H_A: p \neq c.$

にとって $np$ そして $n(1-p)$ 十分に大きい場合、法線の二項近似により、 $\hat{p} \sim N(p, p(1-p)/n)$。したがって、検定統計量を計算すると、$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$帰無仮説の下では、これは標準正規分布として分布されます。重要なのは、標準誤差を推定していないことです。これは、帰無仮説によって決定されます。

ここで、代わりに、比率の違いについて仮説検定を実行する2サンプルのケースを検討します。

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

同じ二項近似により、 $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$$i=1,2$。次に、$\tilde{p}$ プールされた比率です($\hat{p} = (x_1 + x_2)/(n_1+n_2)$)、私たちの検定統計量はによって与えられることを知っています $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

これは私が従わない重要な部分です。1サンプルの場合、標準誤差推定されませんでした。これはnullによって決定されました。したがって、標準正規分布を引用することは理にかなっています。2サンプルの場合、プールされた比率を使用して標準誤差を推定する必要があります。それで、基本的に、これを反映するために何らかの調整を行う必要はありませんか?(つまり、t検定で行うことのように)。

では、どうすればこれを説明できますか?標準誤差にデータベースの推定値を使用しているのに、なぜ標準正規分布を引用できるのでしょうか。

質問はt検定の質問に類似していますが、なぜt検定を使用できないのか理解しています(他の仮定が満たされていません)。これまでの答えでの私の最善の試みは単純です:

「はい、標準誤差を推定していますが、それはとにかく高い自由度でのみ機能するため、その近似は二項の元の正規近似に飲み込まれます」?

それについてもっと良い説明はありますか?調整が必要なのは直感的ですが調整はしていません。

私が引用した2つのリンクがこれを完全にカバーしていないように感じた理由の簡単な説明のために...

@glen_bの答えは非常に優れており、t検定に必要な理論的仮定がここに当てはまらない理由を明確に説明しています。しかし、それがこの正確な問題を説明しているとは思いません。1つと2つのサンプル比例テストの両方について言及していますが、私の混乱は、これらがこの面で同じであるとは感じていないということです。しかし、これは上記の私の最良の推測を知らせるのに役立ちます。つまり、正規性近似に十分な大きさのサンプルサイズの場合、標準誤差の推定は基本的に無関係です。

同様に、@ whuberは、スチューデントt分布が、単純な標準正規分布よりも(中程度のサンプルサイズの場合)検定統計量にどのように近似していないかを(プロットで)非常に明確に示しています。

したがって、ここでスチューデントt分布が適切な選択ではない理由を理解しています。しかし、私の長引く混乱は単純です。スチューデントtが適切な修正ではない場合でも、ここで調整を行わない理由を説明する最良の方法は何でしょうか。1つのサンプルと2つのサンプルのケースが同等に記述されているのがわかります。「分散は平均によって決定されるため、正常です」。ただし、ケースはまったく異なるように見えます。1つは標準誤差を推定し、もう1つは推定しません。答えは、単に「二項比例の差を正規分布で近似していると、標準誤差の推定はその近似に比べて取るに足らないので、無視できる」ということですか?

回答

3 Glen_b Aug 16 2020 at 01:14

リンク先の回答と同様に、Slutskyの定理、具体的にはWikipediaリンクの3番目の(比率)形式を再度使用します。

あなたが書くなら $Z_n$ なので $X_n/Y_n$ どこ

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

どこ $p_0$ 帰無仮説の下での一般的な人口比率であり、 $n_1$ そして $n_2$ 比例して増加します*(または、代わりに $n$ 小さい方になる $n_1$ そして $n_2$ 代わりに)その場合、定理が適用され、 $Y_n$ に収束します $1$、 ように $n\to\infty$ シーケンス $Z_n$ 同じ分布に収束します $X_n$ (つまり、標準正規分布に)します。

*この部分は、いくつかの同様の可能な方法で、一連の $n_1$ そして $n_2$ の値 $n$ それらを比例させながら