Tamanho da amostra para o teste de independência do qui-quadrado de Pearson

Aug 17 2020

Estou tentando fazer um $\chi^2$teste de independência entre duas variáveis. O problema que tenho é que estou lutando com o tamanho da amostra para o teste. Sempre acabo com algumas células que têm 0 amostras.

Tenho os dados de toda a população disponíveis, mas não posso usá-los para teste de hipótese, por isso tenho tentado vários tamanhos com e sem substituição. Além disso, a população é muito pequena - apenas 162.

Com tamanhos de amostra menores, a chisq()função em R continuou gerando mensagens de erro de que a estimativa pode estar incorreta.

> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

Agora eu subi para um tamanho de amostra de 100% da população com reposição. O erro desapareceu, mas estou preocupado porque:

a) Ainda tenho 0 amostras em algumas células :

                       var2_high    var2_low    var2_medium    var2_very_high
  var1_high                12           0             10                 3
  var1_low                 10          20              9                 1
  var1_medium               5          23             19                 0
  var1_very_high            9           0              0                41

E b) Não tenho certeza se esse tamanho da amostra é aceitável .

Alguém pode me ajudar com essas perguntas?

Respostas

1 nwaldo Aug 18 2020 at 05:08

Você está vendo a mensagem acima porque a aproximação do qui quadrado não é confiável quando o tamanho da amostra é pequeno. Eu recomendaria que você use os dados originais e realize um teste exato de Fisher. Um exemplo é dado abaixo de quando esse problema pode surgir e como podemos resolvê-lo usando o teste mencionado.

Suponha que temos os seguintes dados de amostra abaixo. Como um aparte, o teste exato de Fisher foi criado a partir do experimento de degustação de chá de mulheres .

 Truth
Guess  Milk Tea
  Milk    3   1
  Tea     1   3

Queremos testar a hipótese de que as duas variáveis ​​são independentes. Usando um teste qui quadrado, obtemos o aviso abaixo:

Code:
TeaTasting <- matrix(c(3, 1, 1, 3), 
                     nrow = 2, 
                     dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))

chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect

Isso não é surpreendente, pois o tamanho da amostra é relativamente pequeno. Além disso, vemos que as contagens esperadas são menores que 5.

chiSqTest$expected
      Truth
Guess  Milk Tea
  Milk    2   2
  Tea     2   2

Nesse caso, podemos usar um teste exato de Fisher para testar nossa hipótese.

fisher.test(TeaTasting)

Dado que nosso valor p é muito maior do que 0,05, podemos concluir que não há evidência estatística sugerindo que as duas variáveis ​​são independentes

Fisher's Exact Test for Count Data

data:  TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309