ピアソンの独立性のカイ2乗検定のサンプルサイズ
私はしようとしています $\chi^2$2つの変数間の独立性の検定。私が抱えている問題は、テストのサンプルサイズに苦労していることです。私はいつもサンプルが0のセルになってしまいます。
母集団全体のデータを入手できますが、仮説検定に使用できないため、置換の有無にかかわらず、さまざまなサイズで試してみました。また、人口は非常に少なく、162人しかいません。
サンプルサイズが小さいとchisq()
、Rの関数は、推定が正しくない可能性があるというエラーメッセージを出し続けました。
> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
これで、母集団の100%のサンプルサイズに置き換えられました。エラーは消えましたが、私は心配しています:
a)一部のセルにはまだサンプルがありません:
var2_high var2_low var2_medium var2_very_high
var1_high 12 0 10 3
var1_low 10 20 9 1
var1_medium 5 23 19 0
var1_very_high 9 0 0 41
そしてb)そのようなサンプルサイズが許容できるかどうかはわかりません。
誰かがこれらの質問で私を助けることができますか?
回答
サンプルサイズが小さい場合、カイ2乗近似は信頼できないため、上記のメッセージが表示されます。元のデータを使用して、フィッシャーの直接確率検定を実行することをお勧めします。この問題が発生する可能性がある場合と、前述のテストを使用して問題に対処する方法の例を以下に示します。
以下のサンプルデータがあるとします。余談ですが、フィッシャーの直接確率検定は、お茶を味わう女性の実験から作成されました。
Truth
Guess Milk Tea
Milk 3 1
Tea 1 3
2つの変数が独立しているという仮説を検証したいと思います。カイ二乗検定を使用すると、以下の警告が表示されます。
Code:
TeaTasting <- matrix(c(3, 1, 1, 3),
nrow = 2,
dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))
chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect
サンプルサイズが比較的小さいので、これは驚くべきことではありません。さらに、予想されるカウントはすべて5未満であることがわかります。
chiSqTest$expected
Truth
Guess Milk Tea
Milk 2 2
Tea 2 2
この場合、フィッシャーの直接確率検定を使用して仮説を検定できます。
fisher.test(TeaTasting)
p値が0.05よりもはるかに大きいことを考えると、2つの変数が独立していることを示唆する統計的証拠はないと結論付けることができます。
Fisher's Exact Test for Count Data
data: TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309