작은 표본 크기에 대해 카이 제곱보다 정확한 검정이 선호되는 이유는 무엇입니까?

Aug 18 2020

그룹의 동질성을 테스트 할 때 예상 값이 분할 표에서 낮은 경우 Fisher의 정확한 테스트와 같은 테스트가 때때로 카이 제곱보다 선호된다는 것을 알고 있습니다 (역사적으로 사람들은 이것이 보수적이라고 생각하는 것처럼 보이지만 5 개를 제안했습니다). .

그러나 카이 제곱이 작은 표본 크기에 대해 잘 작동하지 않는 이유에 대한 설명을 찾을 수없는 것 같습니다. 따라서 두 가지 질문이 있습니다.

  1. 표본 크기가 감소함에 따라 분할 표의 기대 값이 작아지는 원인은 무엇입니까? (여기서 작은 기대 값은 작은 표본 크기의 결과라고 가정합니다).
  2. 작은 표본 크기에 카이 제곱 검정을 사용하면 안되는 이유는 무엇입니까? 나는 사람들이 이론적 카이 제곱 분포에 적절하게 근사하지 않는다고 말하는 것을 보았지만 누군가가 왜 / 어떻게 그렇지 않은지 설명 할 수 있습니까?

답변

12 Ben Aug 18 2020 at 07:24

고전 가설 검정에서는 귀무 가설에 가장 도움이되는 증거와 대립 가설에 가장 도움이되는 증거를 정렬 하는 검정 통계 가 있습니다. (일반성을 잃지 않고이 통계의 더 높은 값이 대립 가설에 더 도움이된다고 가정합니다.) 검정의 p- 값 은 적어도 실제 관찰 한 것만 큼 대립 가설에 도움이되는 증거를 관찰 할 확률입니다 ( 귀무 가설이 참이라는 가정하에 적어도 관찰 된 값만큼 큰 검정 통계량). 이것은 귀무 가설이 참이라는 가정하에 분포 인 검정 통계 의 귀무 분포 에서 계산됩니다 .

이제 "정확한 검정"은 p- 값을 정확하게 계산하는 검정입니다. 즉, 검정 통계 의 실제 null 분포 에서이를 계산 합니다. 많은 통계 테스트에서 진정한 null 분포는 복잡하지만 다른 분포 로 근사 할 수 있으며 다음 과 같은 근사 분포로 수렴합니다.$n \rightarrow \infty$. 특히, 소위 "카이 제곱 검정"은 진정한 귀무 분포가 카이 제곱 분포로 수렴하는 가설 검정입니다.

따라서 이러한 종류의 "카이 제곱 검정"에서 카이 제곱 분포를 사용하여 검정의 p- 값을 계산할 때 이것은 실제 p- 값에 대한 근사치 입니다. 검정의 실제 p- 값은 정확한 검정에 의해 제공되며 검정 통계의 근사 귀무 분포를 사용하여이 값을 근사합니다. 언제$n$ 이 근사치가 큽니다.하지만 $n$근사치가 좋지 않을 수 있습니다. 이러한 이유로 통계 학자들은 다음과 같은 경우 "카이 제곱 검정"(즉, 진정한 널 분포에 대한 카이 제곱 근사 사용)을 사용하지 말라고 조언합니다.$n$ 작다.


분할 표의 독립성에 대한 카이 제곱 검정 : 이제 분할 표의 독립성을 테스트하기 위해 카이 제곱 검정과 관련하여 특정 질문을 검토하겠습니다. 이 맥락에서 관찰 된 카운트가있는 분할 표가 있다면$O_1,...,O_K$ 합산 $n \equiv \sum O_i$ 테스트 통계는 Pearson 통계입니다.

$$\chi^2 = \sum_{i=1}^K \frac{(O_i-E_i)^2}{E_i},$$

어디 $E_1,...,E_K$ 귀무 가설에서 예상되는 셀 값입니다.$^\dagger$ 여기서 가장 먼저 주목해야 할 것은 관찰 된 $O_1,...,O_K$음이 아닌 정수입니다. 어떠한 것도$n<\infty$이것은 테스트 통계의 가능한 값을 유한 가능한 값 집합으로 제한하므로 실제 null 분포는이 유한 값 집합에 대한 이산 분포가됩니다. 카이 제곱 분포 음이 아닌 모든 실수에 대한 연속 분포이기 때문에 진정한 null 분포가 될 수 없습니다 .

다른 "카이 제곱 검정"에서와 같이 여기서 검정 통계량의 널 분포는 다음과 같은 경우 카이 제곱 분포에 의해 잘 근사됩니다. $n$큽니다. 이것이 "이론적 카이 제곱 분포를 적절하게 근사화"하지 못한 문제라고 말하는 것은 정확하지 않습니다. 반대로 이론적 카이 제곱 분포 진정한 널 분포 가 아니라 근사값 입니다. 카이 제곱 근사는 값이 하나도없는 한 좋습니다.$E_1,...,E_K$작다. 이러한 예상 값이 낮은 값에 대해 작은 이유$n$ 총 개수 값이 낮 으면 적어도 일부 셀의 개수가 낮을 것으로 예상해야합니다.


$^\dagger$분할 표 분석을 위해 이러한 예상 셀 수는 독립 귀무 가설 하에서 주변 합계를 조건화하여 얻습니다. 이러한 가치에 대해 더 자세히 설명 할 필요는 없습니다.