한 예를 데이터 샘플과 비교하는 방법은 무엇입니까?

Aug 17 2020

나는 그것을 깨닫는다 $t$-test는 일반적으로 표본이 모집단에 속하는지 또는 두 표본이 다른지 확인하는 데 사용됩니다.

샘플이 있다면 어떨까요? $n=200$새로운 개별 예제가 해당 샘플의 일부일 확률이 얼마인지 확인하려고합니다. 또는 샘플 배포에서 예제가 어디에 있는지 알고 싶습니다!

답변

3 BruceET Aug 17 2020 at 21:06

이 질문은 읽어야 할 @StatsStudent의 링크에있는 질문과 유사합니다. 그러나 주요하고 중요한 차이점은 비교 샘플이$n = 200.$

정상 인구가 있다고 가정합니다. $\mathsf{Norm}(\mu=100, \sigma=15)$ 그리고 추가 관찰 $X = 130.$새로운 관측치가 해당 모집단에서 나올 가능성이 얼마나되는지 물어볼 수 있습니다. 전통적인 대답은$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ 따라서 이것을 P- 값으로 해석하면 아마도 그렇지 않을 것입니다 (5 % 수준에서 테스트하는 것을 좋아한다면).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

이제 크기의 샘플이 있다고 가정합니다. $n = 200.$ 당신은 알 수 없습니다. $\mathsf{Norm}(\mu=100, \sigma=15).$새 관측 값이 표본 200과 동일한 분산을 가진 모집단에서 나온 것이라고 가정 할 수 있습니다. 그런 다음 풀링 된 2- 표본 t 검정을 수행 할 수 있으며 새 관측 값이 동일한 모집단이 될 수 있다는 결론을 내릴 수 있습니다. p- 값은 0.078입니다 (5 % 수준에서 테스트하려는 경우).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

유사한 참조 그룹의 절반 이상이 거부로 이어질 수 있습니다.

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711