Bagaimana cara membandingkan satu contoh dengan sampel data?
Saya menyadarinya $t$-test biasanya digunakan untuk memeriksa misalnya apakah suatu sampel termasuk dalam populasi, atau jika dua sampel berbeda.
Bagaimana jika Anda memiliki sampel $n=200$dan Anda ingin memeriksa berapa probabilitas contoh individu baru adalah bagian dari sampel itu. Atau lebih tepatnya saya hanya ingin tahu di mana dalam distribusi sampel contohnya!
Jawaban
Pertanyaan ini mirip dengan yang ada di tautan @ StatsStudent, yang harus Anda baca. Namun, perbedaan utama dan krusial adalah sampel perbandingan Anda jauh lebih besar dengan$n = 200.$
Misalkan Anda memiliki populasi normal $\mathsf{Norm}(\mu=100, \sigma=15)$ dan observasi tambahan $X = 130.$Anda dapat bertanya seberapa besar kemungkinan observasi baru tersebut berasal dari populasi tersebut. Jawaban tradisionalnya adalah itu$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Jadi jika Anda menafsirkan ini sebagai nilai-P, Anda akan mengatakan, mungkin tidak (jika Anda suka menguji pada tingkat 5%).
1 - pnorm(130, 100, 15)
[1] 0.02275013
1 - pnorm(2) # std normal w/o extra parameters
[1] 0.02275013
Sekarang misalkan Anda memiliki sampel ukuran $n = 200.$ Tanpa Anda ketahui, ini dari $\mathsf{Norm}(\mu=100, \sigma=15).$Anda bersedia mengasumsikan observasi baru Anda berasal dari populasi dengan varians yang sama seperti sampel 200 Anda. Kemudian Anda dapat melakukan uji t 2 sampel gabungan , dan Anda dapat menyimpulkan observasi baru tersebut dapat menghasilkan populasi yang sama karena Nilai-P adalah 0,078 (jika Anda suka menguji pada tingkat 5%).
set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)
Two Sample t-test
data: 130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-3.433716 63.535081
sample estimates:
mean of x mean of y
130.00000 99.94932
Lebih dari separuh grup referensi serupa akan menyebabkan penolakan:
set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711