Pearson의 카이-제곱 독립성 검정에 대한 표본 크기
나는하려고 $\chi^2$두 변수 간의 독립성 테스트. 내가 가진 문제는 테스트를위한 샘플 크기로 어려움을 겪고 있다는 것입니다. 나는 항상 샘플이 0 인 일부 세포로 끝납니다.
전체 모집단에 대한 데이터를 사용할 수 있지만 가설 테스트에 사용할 수 없으므로 교체 여부에 관계없이 다양한 크기로 시도해 왔습니다. 또한 인구는 매우 적습니다.
샘플 크기가 작을수록 chisq()
R 의 함수는 추정이 올바르지 않을 수 있다는 오류 메시지를 계속 표시했습니다.
> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect
이제 대체 대상 인구의 100 %에 해당하는 표본 크기를 얻었습니다. 오류가 사라졌지 만 이후로 걱정됩니다.
a) 일부 셀에는 여전히 샘플이 없습니다 .
var2_high var2_low var2_medium var2_very_high
var1_high 12 0 10 3
var1_low 10 20 9 1
var1_medium 5 23 19 0
var1_very_high 9 0 0 41
그리고 b) 그러한 샘플 크기가 수용 가능한지 확실하지 않습니다 .
누구든지 이러한 질문에 대해 나를 도울 수 있습니까?
답변
샘플 크기가 작을 때 카이 제곱 근사가 신뢰할 수 없기 때문에 위의 메시지가 표시됩니다. 원본 데이터를 사용하고 Fisher 정확한 테스트를 수행하는 것이 좋습니다. 이 문제가 발생할 수있는시기와 앞서 언급 한 테스트를 사용하여 해결하는 방법에 대한 예가 아래에 나와 있습니다.
아래에 다음과 같은 샘플 데이터가 있다고 가정합니다. 곁에 피셔 정확한 테스트는 숙녀 시음 차 실험 에서 만들어졌습니다 .
Truth
Guess Milk Tea
Milk 3 1
Tea 1 3
두 변수가 독립적이라는 가설을 테스트하려고합니다. 카이 제곱 테스트를 사용하면 다음과 같은 경고가 표시됩니다.
Code:
TeaTasting <- matrix(c(3, 1, 1, 3),
nrow = 2,
dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))
chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect
표본 크기가 상대적으로 작기 때문에 이것은 놀라운 일이 아닙니다. 또한 예상 개수가 모두 5 개 미만임을 알 수 있습니다.
chiSqTest$expected
Truth
Guess Milk Tea
Milk 2 2
Tea 2 2
이 경우 Fisher 정확 검정을 사용하여 가설을 검정 할 수 있습니다.
fisher.test(TeaTasting)
p- 값이 0.05보다 훨씬 크므로 두 변수가 독립적임을 나타내는 통계적 증거가 없다는 결론을 내릴 수 있습니다.
Fisher's Exact Test for Count Data
data: TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
0.2117329 621.9337505
sample estimates:
odds ratio
6.408309