Pearson의 카이-제곱 독립성 검정에 대한 표본 크기

Aug 17 2020

나는하려고 $\chi^2$두 변수 간의 독립성 테스트. 내가 가진 문제는 테스트를위한 샘플 크기로 어려움을 겪고 있다는 것입니다. 나는 항상 샘플이 0 인 일부 세포로 끝납니다.

전체 모집단에 대한 데이터를 사용할 수 있지만 가설 테스트에 사용할 수 없으므로 교체 여부에 관계없이 다양한 크기로 시도해 왔습니다. 또한 인구는 매우 적습니다.

샘플 크기가 작을수록 chisq()R 의 함수는 추정이 올바르지 않을 수 있다는 오류 메시지를 계속 표시했습니다.

> chisq = chisq.test(tbl)
Warning message:
In chisq.test(tbl) : Chi-squared approximation may be incorrect

이제 대체 대상 인구의 100 %에 해당하는 표본 크기를 얻었습니다. 오류가 사라졌지 만 이후로 걱정됩니다.

a) 일부 셀에는 여전히 샘플이 없습니다 .

                       var2_high    var2_low    var2_medium    var2_very_high
  var1_high                12           0             10                 3
  var1_low                 10          20              9                 1
  var1_medium               5          23             19                 0
  var1_very_high            9           0              0                41

그리고 b) 그러한 샘플 크기가 수용 가능한지 확실하지 않습니다 .

누구든지 이러한 질문에 대해 나를 도울 수 있습니까?

답변

1 nwaldo Aug 18 2020 at 05:08

샘플 크기가 작을 때 카이 제곱 근사가 신뢰할 수 없기 때문에 위의 메시지가 표시됩니다. 원본 데이터를 사용하고 Fisher 정확한 테스트를 수행하는 것이 좋습니다. 이 문제가 발생할 수있는시기와 앞서 언급 한 테스트를 사용하여 해결하는 방법에 대한 예가 아래에 나와 있습니다.

아래에 다음과 같은 샘플 데이터가 있다고 가정합니다. 곁에 피셔 정확한 테스트는 숙녀 시음 차 실험 에서 만들어졌습니다 .

 Truth
Guess  Milk Tea
  Milk    3   1
  Tea     1   3

두 변수가 독립적이라는 가설을 테스트하려고합니다. 카이 제곱 테스트를 사용하면 다음과 같은 경고가 표시됩니다.

Code:
TeaTasting <- matrix(c(3, 1, 1, 3), 
                     nrow = 2, 
                     dimnames = list(Guess = c("Milk", "Tea"), Truth = c("Milk", "Tea")))

chiSqTest= chisq.test(TeaTasting)
Warning message:
In chisq.test(TeaTasting) : Chi-squared approximation may be incorrect

표본 크기가 상대적으로 작기 때문에 이것은 놀라운 일이 아닙니다. 또한 예상 개수가 모두 5 개 미만임을 알 수 있습니다.

chiSqTest$expected
      Truth
Guess  Milk Tea
  Milk    2   2
  Tea     2   2

이 경우 Fisher 정확 검정을 사용하여 가설을 검정 할 수 있습니다.

fisher.test(TeaTasting)

p- 값이 0.05보다 훨씬 크므로 두 변수가 독립적임을 나타내는 통계적 증거가 없다는 결론을 내릴 수 있습니다.

Fisher's Exact Test for Count Data

data:  TeaTasting
p-value = 0.4857
alternative hypothesis: true odds ratio is not equal to 1
95 percent confidence interval:
   0.2117329 621.9337505
sample estimates:
odds ratio 
  6.408309