Sampel dibuat dengan metode bootstrap dan cara distribusinya
Jadi, dapatkah kita menyatakan bahwa cara sampel sampel bootstrap didistribusikan secara normal? Dan jika tidak, bagaimana kita dapat menemukan interval kepercayaan untuk rata-rata distribusi umum? Saya tahu bahwa kita dapat menghitung persentil 2,5 dan 97,5, tetapi mengapa rata-rata distribusi umum ada di dalamnya dengan keyakinan 95%?
Jawaban
Misalkan orang dewasa di negara Anda memiliki tinggi rata-rata 165cm dengan standar deviasi 10cm dan tingginya kira-kira normal.
Sekarang misalkan Anda memiliki sampel ukuran acak $n=1000$ orang dewasa dan tinggi rata-rata mereka $\bar X = 164.725$ dengan deviasi standar $S =10.362,$seperti gambar dibawah. [Pengambilan sampel dan komputasi di R.]
set.seed(2020)
x = round(rnorm(1000, 165, 10))
mean(x); sd(x)
[1] 164.725
[1] 10.36228
Interval keyakinan standar 95% dengan asumsi ketinggian normal dalam bentuk $\bar X \pm 1.96 S/\sqrt{n},$di mana 1,96 memotong probabilitas 0,025 dari ujung atas distribusi t Student dengan 999 derajat kebebasan (sangat mendekati normal). Ini menghitung untuk memberikan CI$(164,08, 165.37)$. Intinya,$n = 1000$mungkin memberi Anda CI yang lebih sempit dari yang Anda butuhkan. Orang dewasa di negara itu rata-rata tingginya hampir 164,7 cm.
pm = c(-1,1)
164.725 + pm*1.96*sd(x)/sqrt(1000)
[1] 164.0827 165.3673
Berdasarkan sampel yang sama ini, 95% CI bootstrap nonparametrik yang menggunakan metode kuantil tidak secara khusus mengasumsikan bahwa ketinggian terdistribusi normal. (Namun 1000 subjek dengan tinggi dalam vektor x
diambil sampelnya dari populasi normal, sehingga pasti berisi beberapa informasi tentang normalitas sampel.) Bootstrap CI adalah$(164.08, 165.36).$ Ini pada dasarnya sama dengan CI di atas dari teori normal.
set.seed(821)
a.obs = mean(x) # observed average
d.re = replicate(5000, mean(sample(x, 1000, rep=T))-a.obs)
LU = quantile(d.re, c(.975,.025))
a.obs - LU
97.5% 2.5%
164.077 165.357
Pada setiap 5000 langkahnya, prosedur bootstrap 'sampel ulang' (dengan penggantian) 1000 ketinggian dari antara 1000 ketinggian dalam sampel dan menemukan seberapa besar perbedaan rata-rata sampel ulang dari sampel x
itu sendiri.
Sampel ulang diambil dengan penggantian. Tidak masuk akal untuk mengambil sampel tanpa penggantian karena sampel tanpa penggantian hanya akan menjadi penataan ulang sampel asli. Idenya adalah bahwa re-sampling memberikan gambaran bagaimana variabel mean sampel ukuran 1000 dari sampel tersebut mungkin. Hasilnya adalah penyimpangan ini sangat konsisten; rata-rata mereka sekitar 0 dan deviasi standarnya hanya sekitar$1/3$dari satu cm. Maka tidak heran jika bootstrap CI cukup sempit - meski tidak sesempit CI dari teori normal.
mean(d.re)
[1] 0.0030026
sd(d.re)
[1] 0.323941
Penting untuk dipahami bahwa 'sampel ulang' dari suatu sampel tidak memberikan informasi baru tentang populasi.