Tamanho da amostra para o teste de independência do qui-quadrado de Pearson
Estou tentando fazer um $\chi^2$teste de independência entre duas variáveis. O problema que tenho é que estou lutando com o tamanho da amostra para o teste. Sempre acabo com algumas células que têm 0 amostras.
Tenho os dados de toda a população disponíveis, mas não posso usá-los para teste de hipótese, por isso tenho tentado vários tamanhos com e sem substituição. Além disso, a população é muito pequena - apenas 162.
Com tamanhos de amostra menores, a chisq()
função em R continuou gerando mensagens de erro de que a estimativa pode estar incorreta.
> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
Agora eu subi para um tamanho de amostra de 100% da população com reposição. O erro desapareceu, mas estou preocupado porque:
a) Ainda tenho 0 amostras em algumas células :
var2_high var2_low var2_medium var2_very_high
var1_high 12 0 10 3
var1_low 10 20 9 1
var1_medium 5 23 19 0
var1_very_high 9 0 0 41
E b) Não tenho certeza se esse tamanho da amostra é aceitável .
Alguém pode me ajudar com essas perguntas?
Respostas
Você está vendo a mensagem acima porque a aproximação do qui quadrado não é confiável quando o tamanho da amostra é pequeno. Eu recomendaria que você use os dados originais e realize um teste exato de Fisher. Um exemplo é dado abaixo de quando esse problema pode surgir e como podemos resolvê-lo usando o teste mencionado.
Suponha que temos os seguintes dados de amostra abaixo. Como um aparte, o teste exato de Fisher foi criado a partir do experimento de degustação de chá de mulheres .
Truth
Guess Milk Tea
Milk 3 1
Tea 1 3
Queremos testar a hipótese de que as duas variáveis são independentes. Usando um teste qui quadrado, obtemos o aviso abaixo:
Code:
TeaTasting <- matrix(c(3, 1, 1, 3),
nrow = 2,
dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))
chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect
Isso não é surpreendente, pois o tamanho da amostra é relativamente pequeno. Além disso, vemos que as contagens esperadas são menores que 5.
chiSqTest$expected
Truth
Guess Milk Tea
Milk 2 2
Tea 2 2
Nesse caso, podemos usar um teste exato de Fisher para testar nossa hipótese.
fisher.test(TeaTasting)
Dado que nosso valor p é muito maior do que 0,05, podemos concluir que não há evidência estatística sugerindo que as duas variáveis são independentes
Fisher's Exact Test for Count Data
data: TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309