비율의 2- 표본 차이 : 표준 오차를 추정하는 것이 정규성에 문제가되지 않는 이유는 무엇입니까?

Aug 16 2020

첫째, 이것은 매우 일반적인 질문처럼 보이지만 다른 유사한 게시물을 통해 오랫동안 검색했으며 답변을 제공 할 것 같은 해결책을 찾지 못했다고 약속합니다. ( 이것 과 이것은 매우 가까워 지지만, 어느 쪽도 대답하지 않는다고 생각합니다!).

먼저 1 표본 비율의 경우와 비교하여 혼란을 매우 철저히 설명하겠습니다. 실제 비율이$p$ 어떤 가치와 같다 $c$.

$H_0: p = c.$

$H_A: p \neq c.$

에 대한 $np$$n(1-p)$ 충분히 크면 정규에 대한 이항 근사값은 $\hat{p} \sim N(p, p(1-p)/n)$. 따라서 테스트 통계를 계산할 때$Z := \frac{\hat{p} - c}{\sqrt{c(1-c)/n}}.$귀무 가설 하에서 이것은 표준 정규로 분포됩니다. 결정적으로, 우리는 표준 오류를 추정하는 것이 아니라 귀무 가설에 의해 결정됩니다!

이제 우리는 비율 차이에 대한 가설 검정을 실행하려는 두 표본 사례를 대신 고려합니다.

$H_0: p_1 - p_2 = 0.$

$H_A: p_1 - p_2 \neq 0.$

동일한 이항 근사값은 우리에게 $\hat{p}_i \sim N(p_i, p_i(1-p_i)/n_i)$, $i=1,2$. 그런 다음$\tilde{p}$ 풀링 된 비율 ($\hat{p} = (x_1 + x_2)/(n_1+n_2)$), 나는 우리의 테스트 통계가 $Z := \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\tilde{p}(1-\tilde{p})(1/n_1 + 1/n_2)}}.$

이것은 내가 따르지 않는 중요한 부분입니다. 단일 표본의 경우 표준 오차를 추정 하지 않았습니다 . 이는 null에 의해 결정되었습니다. 따라서 표준 법선을 인용하는 것이 합리적입니다. 두 샘플의 경우, 우리는 우리의 풀링 된 비율을 사용하여 표준 오차를 추정 할 수있다! 그래서, 기본적으로 이것을 반영하기 위해 일종의 조정을해야하지 않습니까? (즉, 우리가 t- 검정으로하는 것과 같습니다).

그래서 어떻게 설명 할 수 있습니까? 표준 오차에 대해 데이터 기반 추정을 사용하고 있는데도 여전히 표준 정규를 인용 할 수있는 이유는 무엇입니까?

질문은 t- 검정과 유사하지만, 왜 우리 t- 검정을 사용할 없는지 이해 합니다 (다른 가정이 충족되지 않음). 지금까지 답변에 대한 최선의 시도는 다음과 같습니다.

"예, 우리는 표준 오차를 추정하고 있습니다. 그러나 그 근사는 어쨌든 높은 자유도에서만 작동하기 때문에 이항에 대한 원래의 정규 근사치에 의해 삼켜집니다."?

더 나은 설명이 있습니까? 약간의 조정이 필요 하다는 것은 직관적으로 느껴지 지만 우리는 조정하지 않습니다.

내가 인용 한 두 링크가 왜 이것을 다루지 않은 것처럼 느꼈는지에 대한 간략한 설명을 위해 ...

@glen_b 의 답변은 매우 좋으며 t- 테스트에 필요한 이론적 가정이 여기에 적용되지 않는 이유를 명확하게 설명합니다. 그러나이 정확한 문제를 설명하지는 않습니다. 그것은 하나와 두 개의 샘플 비율 테스트를 모두 언급하고 있으며, 내 혼란은 그들이이 전면에서 동일하다고 느끼지 않는다는 것입니다. 그러나 이것은 위의 최선의 추측을 알리는 데 도움이됩니다. 즉, 정규성 근사에 충분히 큰 표본 크기의 경우 표준 오류를 추정하는 것이 기본적으로 관련이 없다는 것입니다.

마찬가지로 @whuber 는 student-t 분포가 단순 표준 정규보다 더 나은 (보통 표본 크기의 경우) 테스트 통계에 근접하지 않는 방법을 매우 명확하게 보여줍니다 (플롯 포함).

그래서 나는 학생-비 배포가 여기서 더 나은 선택이 아닌 이유를 이해합니다. 그러나 내 계속되는 혼란은 간단합니다. 학생이 올바른 해결책 이 아니더라도 여기에 어떤 종류의 조정도 제공 하지 않는 이유를 설명하는 가장 좋은 방법은 무엇 입니까? 하나의 샘플과 두 개의 샘플 케이스가 동등하게 설명 된 것을 볼 수 있습니다. "분산이 평균에 의해 결정되기 때문에 정상입니다". 그러나 경우는 상당히 다르게 보입니다. 하나에서는 표준 오류를 추정하고 다른 하나에서는 그렇지 않습니다. 대답은 단순히 "이미 정규와 이항 비율 차이를 근사한 경우 표준 오차의 추정이 해당 근사치에 비해 사소하므로 무시할 수 있습니다"입니까?

답변

3 Glen_b Aug 16 2020 at 01:14

링크 된 답변에서와 같이 Slutsky의 정리 , 특히 Wikipedia 링크의 세 번째 (비율) 형식 을 다시 사용 합니다.

쓰면 $Z_n$ 같이 $X_n/Y_n$ 어디

$$X_n = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{p_0(1-p_0)(1/n_1 + 1/n_2)}}$$

$$Y_n = \frac{\sqrt{\tilde{p}(1-\tilde{p})}}{\sqrt{p_0(1-p_0)}}$$

어디 $p_0$ Null 아래의 공통 인구 비율입니다. $n_1$$n_2$ 비례 적으로 증가 * (또는 $n$ 작다 $n_1$$n_2$ 대신) 정리가 적용되어야합니다. $Y_n$ 수렴 $1$, 그래서 $n\to\infty$ 시퀀스 $Z_n$ 동일한 분포로 수렴 $X_n$ 합니다 (예 : 표준 정규 분포).

*이 부분은 여러 유사한 방법으로 형식화 될 수 있으며, $n_1$$n_2$$n$ 비율을 유지하면서