작은 표본 크기에 대해 카이 제곱보다 정확한 검정이 선호되는 이유는 무엇입니까?
그룹의 동질성을 테스트 할 때 예상 값이 분할 표에서 낮은 경우 Fisher의 정확한 테스트와 같은 테스트가 때때로 카이 제곱보다 선호된다는 것을 알고 있습니다 (역사적으로 사람들은 이것이 보수적이라고 생각하는 것처럼 보이지만 5 개를 제안했습니다). .
그러나 카이 제곱이 작은 표본 크기에 대해 잘 작동하지 않는 이유에 대한 설명을 찾을 수없는 것 같습니다. 따라서 두 가지 질문이 있습니다.
- 표본 크기가 감소함에 따라 분할 표의 기대 값이 작아지는 원인은 무엇입니까? (여기서 작은 기대 값은 작은 표본 크기의 결과라고 가정합니다).
- 작은 표본 크기에 카이 제곱 검정을 사용하면 안되는 이유는 무엇입니까? 나는 사람들이 이론적 카이 제곱 분포에 적절하게 근사하지 않는다고 말하는 것을 보았지만 누군가가 왜 / 어떻게 그렇지 않은지 설명 할 수 있습니까?
답변
고전 가설 검정에서는 귀무 가설에 가장 도움이되는 증거와 대립 가설에 가장 도움이되는 증거를 정렬 하는 검정 통계 가 있습니다. (일반성을 잃지 않고이 통계의 더 높은 값이 대립 가설에 더 도움이된다고 가정합니다.) 검정의 p- 값 은 적어도 실제 관찰 한 것만 큼 대립 가설에 도움이되는 증거를 관찰 할 확률입니다 ( 귀무 가설이 참이라는 가정하에 적어도 관찰 된 값만큼 큰 검정 통계량). 이것은 귀무 가설이 참이라는 가정하에 분포 인 검정 통계 의 귀무 분포 에서 계산됩니다 .
이제 "정확한 검정"은 p- 값을 정확하게 계산하는 검정입니다. 즉, 검정 통계 의 실제 null 분포 에서이를 계산 합니다. 많은 통계 테스트에서 진정한 null 분포는 복잡하지만 다른 분포 로 근사 할 수 있으며 다음 과 같은 근사 분포로 수렴합니다.$n \rightarrow \infty$. 특히, 소위 "카이 제곱 검정"은 진정한 귀무 분포가 카이 제곱 분포로 수렴하는 가설 검정입니다.
따라서 이러한 종류의 "카이 제곱 검정"에서 카이 제곱 분포를 사용하여 검정의 p- 값을 계산할 때 이것은 실제 p- 값에 대한 근사치 입니다. 검정의 실제 p- 값은 정확한 검정에 의해 제공되며 검정 통계의 근사 귀무 분포를 사용하여이 값을 근사합니다. 언제$n$ 이 근사치가 큽니다.하지만 $n$근사치가 좋지 않을 수 있습니다. 이러한 이유로 통계 학자들은 다음과 같은 경우 "카이 제곱 검정"(즉, 진정한 널 분포에 대한 카이 제곱 근사 사용)을 사용하지 말라고 조언합니다.$n$ 작다.
분할 표의 독립성에 대한 카이 제곱 검정 : 이제 분할 표의 독립성을 테스트하기 위해 카이 제곱 검정과 관련하여 특정 질문을 검토하겠습니다. 이 맥락에서 관찰 된 카운트가있는 분할 표가 있다면$O_1,...,O_K$ 합산 $n \equiv \sum O_i$ 테스트 통계는 Pearson 통계입니다.
$$\chi^2 = \sum_{i=1}^K \frac{(O_i-E_i)^2}{E_i},$$
어디 $E_1,...,E_K$ 귀무 가설에서 예상되는 셀 값입니다.$^\dagger$ 여기서 가장 먼저 주목해야 할 것은 관찰 된 $O_1,...,O_K$음이 아닌 정수입니다. 어떠한 것도$n<\infty$이것은 테스트 통계의 가능한 값을 유한 가능한 값 집합으로 제한하므로 실제 null 분포는이 유한 값 집합에 대한 이산 분포가됩니다. 카이 제곱 분포 는 음이 아닌 모든 실수에 대한 연속 분포이기 때문에 진정한 null 분포가 될 수 없습니다 .
다른 "카이 제곱 검정"에서와 같이 여기서 검정 통계량의 널 분포는 다음과 같은 경우 카이 제곱 분포에 의해 잘 근사됩니다. $n$큽니다. 이것이 "이론적 카이 제곱 분포를 적절하게 근사화"하지 못한 문제라고 말하는 것은 정확하지 않습니다. 반대로 이론적 카이 제곱 분포 는 진정한 널 분포 가 아니라 근사값 입니다. 카이 제곱 근사는 값이 하나도없는 한 좋습니다.$E_1,...,E_K$작다. 이러한 예상 값이 낮은 값에 대해 작은 이유$n$ 총 개수 값이 낮 으면 적어도 일부 셀의 개수가 낮을 것으로 예상해야합니다.
$^\dagger$분할 표 분석을 위해 이러한 예상 셀 수는 독립 귀무 가설 하에서 주변 합계를 조건화하여 얻습니다. 이러한 가치에 대해 더 자세히 설명 할 필요는 없습니다.