Pearson'un ki-kare bağımsızlık testi için örneklem büyüklüğü

Aug 17 2020

Yapmaya çalışıyorum $\chi^2$iki değişken arasındaki bağımsızlık testi. Sahip olduğum sorun, test için örneklem büyüklüğüyle mücadele etmem. Her zaman 0 örneği olan bazı hücrelerle sonuçlanır.

Tüm popülasyonla ilgili verilere sahibim, ancak bunu hipotez testi için kullanamıyorum, bu yüzden değişik boyutlarda ve değiştirmeden deniyorum. Ayrıca, nüfus oldukça az - sadece 162.

Daha küçük örneklem boyutları chisq()ile R'deki fonksiyon, tahminin yanlış olabileceğine dair hata mesajları vermeye devam etti.

> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

Şimdi, ikame ile nüfusun% 100'ü kadar bir örnek büyüklüğüne ulaştım. Hata ortadan kalktı, ancak şu zamandan beri endişeliyim:

a) Bazı hücrelerde hala 0 örneğim var :

                       var2_high    var2_low    var2_medium    var2_very_high
  var1_high                12           0             10                 3
  var1_low                 10          20              9                 1
  var1_medium               5          23             19                 0
  var1_very_high            9           0              0                41

Ve b) Böyle bir örnek boyutunun kabul edilebilir olup olmadığından emin değilim .

Biri bana bu sorularda yardımcı olabilir mi?

Yanıtlar

1 nwaldo Aug 18 2020 at 05:08

Yukarıdaki mesajı görüyorsunuz çünkü örnek boyutu küçük olduğunda chi kare yaklaşımı güvenilmezdir. Orijinal verileri kullanmanızı ve bir Fisher kesin testi yapmanızı tavsiye ederim. Aşağıda, bu sorunun ne zaman ortaya çıkabileceği ve yukarıda bahsedilen testi kullanarak nasıl çözebileceğimize dair bir örnek verilmiştir.

Aşağıdaki örnek verilere sahip olduğumuzu varsayalım. Bir kenara, Fisher kesin testi çay tadım deneyinden yaratıldı .

 Truth
Guess  Milk Tea
  Milk    3   1
  Tea     1   3

İki değişkenin bağımsız olduğu hipotezini test etmek istiyoruz. Chi kare testi kullanarak aşağıdaki uyarıyı alırız:

Code:
TeaTasting <- matrix(c(3, 1, 1, 3), 
                     nrow = 2, 
                     dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))

chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect

Örnek boyutu nispeten küçük olduğu için bu şaşırtıcı değil. Dahası, beklenen sayıların 5'ten az olduğunu görüyoruz.

chiSqTest$expected
      Truth
Guess  Milk Tea
  Milk    2   2
  Tea     2   2

Bu durumda, hipotezimizi test etmek için bir Fisher kesin testi kullanabiliriz.

fisher.test(TeaTasting)

P değerimizin 0,05'ten çok daha büyük olduğu göz önüne alındığında, iki değişkenin bağımsız olduğunu gösteren hiçbir istatistiksel kanıt olmadığı sonucuna varabiliriz.

Fisher's Exact Test for Count Data

data:  TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309