부트 스트랩 방법으로 만든 표본 및 평균 분포

Aug 20 2020

그렇다면 부트 스트랩 표본의 표본 평균이 정상적으로 분포되어 있다고 말할 수 있습니까? 그렇지 않다면 일반 분포의 평균에 대한 신뢰 구간을 어떻게 찾을 수 있습니까? 2.5 및 97.5 백분위 수를 계산할 수 있다는 것을 알고 있지만 왜 일반 분포의 평균이 95 % 신뢰도로 여기에 포함 될까요?

답변

BruceET Aug 22 2020 at 00:49

귀하의 국가에서 성인의 평균 신장은 165cm이고 표준 편차는 10cm이고 신장은 거의 정상이라고 가정합니다.

이제 크기의 무작위 표본이 있다고 가정합니다. $n=1000$ 성인의 평균 신장은 $\bar X = 164.725$ 표준 편차 포함 $S =10.362,$아래 그림과 같이. [R에서 샘플링 및 계산]

set.seed(2020)
x = round(rnorm(1000, 165, 10))
mean(x);  sd(x)
[1] 164.725
[1] 10.36228

정상 높이가 다음과 같다고 가정하는 표준 95 % 신뢰 구간 $\bar X \pm 1.96 S/\sqrt{n},$여기서 1.96은 자유도가 999 인 스튜던트 t 분포의 상단 꼬리에서 확률 0.025를 잘라냅니다 (매우 거의 정상). 이것은 CI를 제공하기 위해 계산됩니다.$(164,08, 165.37)$. 본질적으로$n = 1000$필요한 것보다 더 좁은 CI를 제공 할 수 있습니다. 미국 성인의 평균 신장은 거의 164.7cm입니다.

pm = c(-1,1)
164.725 + pm*1.96*sd(x)/sqrt(1000)
[1] 164.0827 165.3673

이 동일한 샘플을 기반으로, 분위수 방법을 사용하는 95 % 비모수 부트 스트랩 CI는 높이가 정규 분포를 따른다고 구체적으로 가정하지 않습니다. (그러나 벡터의 높이를 가진 1000 명의 피험자 x는 정규 모집단에서 샘플링되었으므로 필연적으로 표본의 정규성에 대한 정보가 포함되어 있습니다.) 부트 스트랩 CI는 다음과 같습니다.$(164.08, 165.36).$ 그것은 본질적으로 정상 이론에서 위의 CI와 동일합니다.

set.seed(821)
a.obs = mean(x)  # observed average
d.re = replicate(5000, mean(sample(x, 1000, rep=T))-a.obs)
LU = quantile(d.re, c(.975,.025))
a.obs - LU
   97.5%     2.5% 
 164.077 165.357 

각 5000 개 단계에서 부트 스트랩 절차는 샘플의 1000 개 높이 중에서 1000 개의 높이를 '재 샘플링'(대체 포함)하고 재 샘플의 평균이 샘플 x자체 와 얼마나 다른지 찾습니다 .

재 샘플은 교체와 함께 취합니다. 대체하지 않은 샘플은 원래 샘플의 재배치 일 뿐이므로 대체하지 않고 샘플링하는 것은 의미가 없습니다. 이 아이디어는 리샘플링이 그러한 샘플에서 크기가 1000 인 가변 샘플 평균이 얼마나 될지에 대한 아이디어를 제공한다는 것입니다. 결과적으로 이러한 편차는 매우 일관 적입니다. 평균은 약 0이고 표준 편차는 약$1/3$cm의. 따라서 부트 스트랩 CI가 정상 이론의 CI만큼 좁지는 않더라도 매우 좁다는 것은 놀라운 일이 아닙니다.

mean(d.re)
[1] 0.0030026
sd(d.re)
[1] 0.323941

표본의 '재 표본'은 모집단에 대한 새로운 정보를 제공하지 않는다는 것을 이해하는 것이 중요합니다.