평균 ± 2 * SEM (95 % 신뢰 구간)이 겹치지 만 p- 값이 0.05 인 이유는 무엇입니까?

Nov 21 2020

두 개의 목록으로 데이터가 있습니다.

acol = [8.48, 9.82, 9.66, 9.81, 9.23, 10.35, 10.08, 11.05, 8.63, 9.52, 10.88, 10.05, 10.45, 10.0, 9.97, 12.02, 11.48, 9.53, 9.98, 10.69, 10.29, 9.74, 8.92, 11.94, 9.04, 11.42, 8.88, 10.62, 9.38, 12.56, 10.53, 9.4, 11.53, 8.23, 12.09, 9.37, 11.17, 11.33, 10.49, 8.32, 11.29, 10.31, 9.94, 10.27, 9.98, 10.05, 10.07, 10.03, 9.12, 11.56, 10.88, 10.3, 11.32, 8.09, 9.34, 10.46, 9.35, 11.82, 10.29, 9.81, 7.92, 7.84, 12.22, 10.42, 10.45, 9.33, 8.24, 8.69, 10.31, 11.29, 9.31, 9.93, 8.21, 10.32, 9.72, 8.95, 9.49, 8.11, 8.33, 10.41, 8.38, 10.31, 10.33, 8.83, 7.84, 8.11, 11.11, 9.41, 9.32, 9.42, 10.57, 9.74, 11.35, 9.44, 10.53, 10.08, 10.92, 9.72, 7.83, 11.09, 8.95, 10.69, 11.85, 10.19, 8.49, 9.93, 10.39, 11.08, 11.27, 8.71, 9.62, 11.75, 8.45, 8.09, 11.54, 9.0, 9.61, 10.82, 10.36, 9.22, 9.36, 10.38, 9.53, 9.2, 10.36, 9.38, 7.68, 9.99, 10.61, 8.81, 10.09, 10.24, 9.21, 10.17, 10.32, 10.41, 8.77]

bcol = [12.48, 9.76, 9.63, 10.86, 11.63, 9.07, 12.01, 9.52, 10.05, 8.66, 10.85, 9.87, 11.14, 10.59, 9.24, 9.85, 9.62, 11.54, 11.1, 9.38, 9.24, 9.68, 10.02, 9.91, 10.66, 9.7, 11.06, 9.27, 9.08, 11.31, 10.9, 10.63, 8.98, 9.81, 9.69, 10.71, 10.43, 10.89, 8.96, 9.74, 8.33, 11.45, 9.61, 9.59, 11.25, 9.44, 10.05, 11.63, 10.16, 11.71, 9.1, 9.53, 9.76, 9.33, 11.53, 11.59, 10.21, 10.68, 8.99, 9.44, 9.82, 10.35, 11.22, 9.05, 9.18, 9.57, 11.43, 9.4, 11.45, 8.39, 11.32, 11.16, 12.47, 11.62, 8.77, 11.34, 11.77, 9.53, 10.54, 8.73, 9.97, 9.98, 10.8, 9.6, 9.6, 9.96, 12.17, 10.01, 8.69, 8.94, 9.24, 9.84, 10.39, 10.65, 9.31, 9.93, 10.41, 8.5, 8.64, 10.23, 9.94, 10.47, 8.95, 10.8, 9.84, 10.26, 11.0, 11.22, 10.72, 9.14, 10.06, 11.52, 10.21, 9.82, 10.81, 10.3, 9.81, 11.48, 8.51, 9.55, 10.41, 12.17, 9.9, 9.07, 10.51, 10.26, 10.62, 10.84, 9.67, 9.75, 8.84, 9.85, 10.41, 9.18, 10.93, 11.41, 9.52]

위 목록의 요약은 다음과 같습니다.

N,   Mean, SD,   SEM,   95% CIs
137  9.92  1.08  0.092  (9.74, 10.1)
137  10.2  0.951 0.081  (10.0, 10.3)

위 데이터에 대한 짝이없는 t- 검정은 p- 값 0.05를 제공합니다 .

f,p = scipy.stats.ttest_ind(acol, bcol)
print(f, p)
-1.9644209241736 0.050499295018989004

I은 이해 있고 다른 페이지 평균 ± SEM 2 * (의해 계산 된 평균의 표준 오차 SD가 / SQRT (N)가 ) 95 % 신뢰 구간 (CI)의 범위를 제공한다.

또한 95 % 신뢰 구간이 겹치면 P- 값이> 0.05가 될 것이라고 믿습니다.

위의 데이터를 평균 ± 2 * SEM 으로 플로팅했습니다 .

95 % 신뢰 구간이 겹칩니다. 그렇다면 p 값이 중요한 수준에 도달하는 이유는 무엇입니까?

답변

10 SextusEmpiricus Nov 21 2020 at 20:49

겹침은 (엄격 / 부정확 한) 경험 법칙 일뿐입니다.

오차 막대가 겹치지 않는 지점은 두 지점 사이의 거리가 다음과 같을 때입니다. $2(SE_1+SE_2)$. 그래서 효과적으로 어떤 종류의 표준화 된 점수 (거리를 표준 오차의 합으로 나눈 값)가 2보다 큰지 테스트하고 있습니다.$z_{overlap}$

$$ z_{overlap} = \frac{\vert \bar{X}_1- \bar{X}_2 \vert}{SE_1+SE_2} \geq 2$$

이 경우 $z_{overlap} \geq 2$ 그러면 오차 막대가 겹치지 않습니다.


독립 변수 선형 합의 표준 편차

표준 편차 (오차)를 함께 더하는 것은 선형 합계 (파라미터)의 표준 편차 (오차)를 계산하는 일반적인 방법이 아닙니다. $\bar{X}_1-\bar{X}_2$ 둘 중 하나에 요소를 곱한 선형 합계로 간주 할 수 있습니다. $-1$) 참조 : 상관 관계가없는 변수의 합

따라서 다음은 독립적 인 경우에 해당됩니다. $\bar{X}_1$$\bar{X}_2$:

$$\begin{array}{} \text{Var}(\bar{X}_1-\bar{X}_2) &=& \text{Var}(\bar{X}_1) + \text{Var}(\bar{X}_2)\\ \sigma_{\bar{X}_1-\bar{X}_2}^2 &=& \sigma_{\bar{X}_1}^2+\sigma_{\bar{X}_2}^2\\ \sigma_{\bar{X}_1-\bar{X}_2} &=& \sqrt{\sigma_{\bar{X}_1}^2+\sigma_{\bar{X}_2}^2}\\ \text{S.E.}(\bar{X}_1-\bar{X}_2) &=& \sqrt{\text{S.E.}(\bar{X}_1)^2 + \text{S.E.}(\bar{X}_2)^2}\\ \end{array}$$

하지만

$$\text{S.E.}(\bar{X}_1-\bar{X}_2) \neq {\text{S.E.}(\bar{X}_1) + \text{S.E.}(\bar{X}_2)}$$


두 샘플의 평균 차이를 비교하기위한 '올바른'공식

A의 t 검정 두 집단의 방법의 차이를 비교 하면 수식 등을 사용한다

  • 가장 간단한 경우 : $$t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{SE_1^2+SE_2^2}}$$ 이것은 분산이 같지 않거나 표본 크기가 같다고 간주 할 때입니다.

  • 표본 크기가 다르고 모집단의 분산이 같다고 생각하는 경우 두 표본의 분산을 개별적으로가 아니라 함께 추정하고 다음 과 같은 풀링 된 분산에 대해 여러 공식 중 하나를 사용할 수 있습니다.

    $$s_p = \sqrt{\frac{(n_1-1)s_1^2 +(n_2-1)s_2^2}{n_1+n_2-2}}$$

    $$t = \frac{\bar{X}_1 - \bar{X}_2}{s_p \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$$

    그리고 $SE_1 = s_1/\sqrt{n_1}$$SE_2 = s_2/\sqrt{n_2}$ 당신은 얻을

    $$t = \frac{\bar{X}_1 - \bar{X}_2}{\sqrt{\frac{n_1+n_2}{n_1+n_2-2} \left( \frac{n_1-1}{n_2} SE_1^2 + \frac{n_2-1}{n_1} SE_2^2 \right)}}$$

값은 $\sqrt{SE_1^2+SE_2^2}$ 보다 작다 $SE_1+SE_2$따라서 $t>z_{overlap}$.

사이드 노트 :

  • 합동 분산의 경우 드물기는하지만 더 큰 표본의 분산이 더 작은 표본의 분산보다 큰 상황이 발생할 수 있으며 다음과 같은 상황이 발생할 수 있습니다. $t<z_{overlap}$.

  • z- 값과 z- 테스트 대신 실제로 t- 테스트를 수행하고 있습니다 . 따라서 오차 막대에 대한 신뢰 구간의 기준이되는 수준 (예 : '95 %는 표준 오차의 2 배에 해당함 ')이 t- 검정에서 다를 수 있습니다. 공정하게 말하면 사과와 사과를 비교하려면 동일한 표준을 사용하고 t- 검정에서 오차 막대에 대한 신뢰 수준을 기반으로해야합니다. 따라서 t- 검정의 경우에도 95 %와 관련된 경계 수준이 2보다 작거나 같다고 가정합니다 (이는 60보다 큰 표본 크기의 경우).

이 경우 $t \geq 2$ 그 차이는 중요합니다 (5 % 수준).

두 변수의 차이에 대한 표준 오차는 각 변수의 표준 오차의 합 이 아닙니다 . 이 합계는 차이에 대한 오류를 과대 평가하고 있으며 너무 보수적 일 것입니다 (큰 차이가 없다고 주장하는 경우가 너무 많습니다).

그래서 $t>z_{overlap}$오차 막대가 겹치는 동안 상당한 차이가 발생할 수 있습니다. 중요한 차이를 갖기 위해 겹치지 않는 오차 막대가 필요하지 않습니다. 이 중복은 더 엄격한 요구 사항이며 p- 값이 다음과 같을 때 발생합니다.$\leq 0.05$ (그리고 종종 더 낮은 p- 값이 될 것입니다).

3 JimmyHe Nov 22 2020 at 02:07

p- 값은 두 CI가 아닌 CI와 매개 변수 값 사이에 고려되어야합니다. 실제로 빨간색 점은 완전히 파란색 CI 바깥쪽에 있고 파란색 점은 완전히 빨간색 CI 바깥쪽에 있습니다.

그리고 귀무 가설 하에서 그러한 사건이 5 %의 시간 동안 발생한다는 것은 사실입니다.

  • 2.5 %의 경우 95 % CI보다 높은 점수를 얻습니다.
  • 2.5 %의 경우 95 % CI보다 낮은 점수를 얻습니다.

이 경우 에만 겹치거나 터치 수염, 다음 귀무 가설은 적게 5 % 이상이 결과를 많이 생성합니다. 이것은 (귀하의 예를 사용하기 위해) 파란색 샘플이 모두 낮아야하고 동시에 빨간색 샘플이 높아야하기 때문입니다 (정확히 얼마나 높은지는 파란색 값에 따라 달라짐). 두 오류가 서로 독립적이므로 왜곡이없는 3D 다변량 가우스 플롯으로 그릴 수 있습니다.

각 축을 따라 강조 표시된 영역 (CI)을 벗어날 확률은 0.05입니다. 그러나 거의 닿지 않는 두 CI의 P를 제공하는 파란색 및 분홍색 영역의 총 확률은 귀하의 경우 0.05 미만입니다.

파란색 / 빨간색 축에서 녹색 축으로 변수를 변경하면 다변량 가우시안이 아닌 일 변량을 사용하여이 볼륨을 통합 할 수 있으며 새로운 분산은 @ Sextus-Empiricus의 답변에서 풀링 된 분산 입니다.

2 Acccumulation Nov 22 2020 at 04:30

신뢰도와 확률의 차이를 무시하더라도 겹치는 부분은 빨간색 확률과 파란색 확률이 모두 0.05보다 큰 점으로 구성됩니다. 하지만 그렇다고 둘 다 확률 이 0.05보다 크다는 의미는 아닙니다 . 예를 들어 빨간색과 파란색 확률이 모두 0.10이면 결합 확률 (독립성을 가정)은 0.01입니다. 전체 겹침을 통합하면 0.01 미만이됩니다.

겹치는 부분을 보면 차이가 두 표준 편차보다 작은 점을 볼 수 있습니다. 그러나 두 변수 간의 차이 분산은 개별 분산 의 이라는 것을 기억하십시오 . 따라서 일반적으로 겹치는 CI를 확인하여 두 개의 서로 다른 모집단을 비교하려면 각 CI의 크기를 다음과 같이 나누어야한다는 경험 법칙을 사용할 수 있습니다.$\sqrt 2$: 분산의 크기가 비슷한 경우 차이의 분산은 개별 분산의 두 배가되고 표준 편차는 다음과 같습니다. $\sqrt 2$ 배가 큽니다.