サンプルサイズが小さい場合、カイ2乗よりも正確な検定が好まれるのはなぜですか？

Aug 18 2020

グループの均一性をテストする場合、分割表で期待値が低い場合は、フィッシャーの直接確率検定などの検定の方がカイ2乗よりも望ましい場合があることを認識しています（これは保守的だと考える人もいますが、歴史的には5を提案しています）。

ただし、サンプルサイズが小さい場合にカイ2乗がうまく機能しない理由の説明が見つからないようです。したがって、2つの質問があります。

サンプルサイズが小さくなると、分割表の期待値が小さくなる原因は何ですか？（ここでは、小さい期待値はサンプルサイズが小さいためであると想定しています）。
小さなサンプルサイズにカイ二乗検定を使用すべきではないのはなぜですか？理論的なカイ二乗分布を適切に近似していないと言われているのを見たことがありますが、なぜ/どのように近似していないのか説明できますか？

回答

12 Ben Aug 18 2020 at 07:24

古典的な仮説検定では、帰無仮説を最も助長するものから対立仮説を最も助長するものへと証拠を並べ替える検定統計量があります。（一般性を失うことなく、この統計量の値が高いほど対立仮説が助長されると仮定します。）検定のp値は、少なくとも実際に観察したものと同じくらい対立仮説を助長する証拠を観察する確率です（ヌル仮説が真であるという仮定の下で、少なくとも観測値と同じ大きさの検定統計量）。これは、検定統計量のヌル分布から計算されます。これは、ヌル仮説が真であるという仮定の下での分布です。

ここで、「正確な検定」は、p値を正確に計算する検定です---つまり、検定統計量の真のヌル分布からこれを計算します。多くの統計的検定では、真のヌル分布は複雑ですが、別の分布で近似することができ、次のように近似分布に収束します。$n \rightarrow \infty$。特に、いわゆる「カイ2乗検定」は、真のヌル分布がカイ2乗分布に収束する仮説検定です。

したがって、この種の「カイ2乗検定」では、カイ2乗分布を使用して検定のp値を計算する場合、これは真のp値の近似値にすぎません。テストの真のp値は正確なテストによって与えられ、検定統計量の近似ヌル分布を使用してこの値を近似しています。いつ$n$ 大きい場合、この近似は非常に優れていますが、 $n$小さい場合、近似が不十分になる可能性があります。このため、統計学者は、次の場合に「カイ2乗検定」の使用（つまり、真のヌル分布のカイ2乗近似の使用）に反対するように助言します。$n$ 小さいです。

分割表の独立性のカイ2乗検定：次に、分割表の独立性を検定するカイ2乗検定に関連する特定の質問を調べます。このコンテキストでは、観測されたカウントを含む分割表がある場合$O_1,...,O_K$ に合計 $n \equiv \sum O_i$ その場合、検定統計量はピアソン統計量です。

$$\chi^2 = \sum_{i=1}^K \frac{(O_i-E_i)^2}{E_i},$$

どこ $E_1,...,E_K$ 帰無仮説の下で期待されるセル値です。$^\dagger$ ここで最初に注意することは、観測されたカウントが $O_1,...,O_K$非負の整数です。どんな場合でも$n<\infty$これにより、検定統計量の可能な値が可能な値の有限セットに制限されるため、その真のヌル分布は、この有限の値セットの離散分布になります。カイ二乗分布は、すべての非負の実数、つまり（数えられない）無限の値のセットにわたる連続分布であるため、真のヌル分布にはなり得ないことに注意してください。

他の「カイ二乗検定」と同様に、ここでの検定統計量のヌル分布は、次の場合にカイ二乗分布でよく近似されます。 $n$は大きい。これが「理論的なカイ二乗分布を適切に近似する」ことに失敗した問題であると言うのは正しくありません---逆に、理論的なカイ二乗分布は近似であり、真のヌル分布ではありません。カイ二乗近似は、値がない限り良好です。$E_1,...,E_K$小さいです。これらの期待値が低い値に対して小さい理由$n$ 合計カウント値が低い場合、少なくとも一部のセルのカウントが低くなることを期待する必要があります。

$^\dagger$分割表の分析では、これらの予想されるセル数は、独立性のヌル仮説の下で周辺合計を条件付けすることによって取得されます。これらの値についてこれ以上詳しく説明する必要はありません。