Ukuran sampel untuk uji chi-square Pearson untuk independensi

Aug 17 2020

Saya mencoba untuk melakukan $\chi^2$uji independensi antara dua variabel. Masalah yang saya hadapi adalah saya kesulitan dengan ukuran sampel untuk pengujian. Saya selalu berakhir dengan beberapa sel yang memiliki 0 sampel.

Saya memiliki data tentang seluruh populasi yang tersedia, tetapi saya tidak dapat menggunakannya untuk pengujian hipotesis jadi saya telah mencoba dengan berbagai ukuran dengan dan tanpa penggantian. Selain itu, populasinya juga cukup kecil - hanya 162.

Dengan ukuran sampel yang lebih kecil, chisq()fungsi di R terus menghasilkan pesan kesalahan yang perkiraannya mungkin salah.

> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

Sekarang saya telah mencapai ukuran sampel 100% populasi dengan penggantian. Kesalahan telah hilang, tetapi saya khawatir sejak:

a) Saya masih memiliki 0 sampel di beberapa sel :

                       var2_high    var2_low    var2_medium    var2_very_high
  var1_high                12           0             10                 3
  var1_low                 10          20              9                 1
  var1_medium               5          23             19                 0
  var1_very_high            9           0              0                41

Dan b) Saya tidak yakin apakah ukuran sampel seperti itu dapat diterima .

Adakah yang bisa membantu saya dengan pertanyaan ini?

Jawaban

1 nwaldo Aug 18 2020 at 05:08

Anda melihat pesan di atas karena perkiraan chi kuadrat tidak dapat diandalkan saat ukuran sampel kecil. Saya akan merekomendasikan agar Anda menggunakan data asli dan melakukan tes persis Fisher. Sebuah contoh diberikan di bawah ini tentang kapan masalah ini mungkin muncul dan bagaimana kita dapat mengatasinya menggunakan tes yang disebutkan di atas.

Misalkan kita memiliki contoh data berikut di bawah ini. Selain itu, tes pasti Fisher dibuat dari percobaan mencicipi teh wanita .

 Truth
Guess  Milk Tea
  Milk    3   1
  Tea     1   3

Kami ingin menguji hipotesis bahwa kedua variabel itu independen. Dengan menggunakan uji chi kuadrat, kita mendapatkan peringatan di bawah ini:

Code:
TeaTasting <- matrix(c(3, 1, 1, 3), 
                     nrow = 2, 
                     dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))

chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect

Ini tidak mengherankan karena ukuran sampelnya relatif kecil. Selain itu, kami melihat bahwa hitungan yang diharapkan semuanya kurang dari 5.

chiSqTest$expected
      Truth
Guess  Milk Tea
  Milk    2   2
  Tea     2   2

Dalam kasus ini, kita dapat menggunakan uji pasti Fisher untuk menguji hipotesis kita.

fisher.test(TeaTasting)

Mengingat p-value kita jauh lebih besar dari 0,05, kita dapat menyimpulkan bahwa tidak ada bukti statistik yang menunjukkan bahwa kedua variabel itu independen.

Fisher's Exact Test for Count Data

data:  TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309