Bagaimana cara membandingkan satu contoh dengan sampel data?

Aug 17 2020

Saya menyadarinya $t$-test biasanya digunakan untuk memeriksa misalnya apakah suatu sampel termasuk dalam populasi, atau jika dua sampel berbeda.

Bagaimana jika Anda memiliki sampel $n=200$dan Anda ingin memeriksa berapa probabilitas contoh individu baru adalah bagian dari sampel itu. Atau lebih tepatnya saya hanya ingin tahu di mana dalam distribusi sampel contohnya!

Jawaban

3 BruceET Aug 17 2020 at 21:06

Pertanyaan ini mirip dengan yang ada di tautan @ StatsStudent, yang harus Anda baca. Namun, perbedaan utama dan krusial adalah sampel perbandingan Anda jauh lebih besar dengan$n = 200.$

Misalkan Anda memiliki populasi normal $\mathsf{Norm}(\mu=100, \sigma=15)$ dan observasi tambahan $X = 130.$Anda dapat bertanya seberapa besar kemungkinan observasi baru tersebut berasal dari populasi tersebut. Jawaban tradisionalnya adalah itu$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Jadi jika Anda menafsirkan ini sebagai nilai-P, Anda akan mengatakan, mungkin tidak (jika Anda suka menguji pada tingkat 5%).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

Sekarang misalkan Anda memiliki sampel ukuran $n = 200.$ Tanpa Anda ketahui, ini dari $\mathsf{Norm}(\mu=100, \sigma=15).$Anda bersedia mengasumsikan observasi baru Anda berasal dari populasi dengan varians yang sama seperti sampel 200 Anda. Kemudian Anda dapat melakukan uji t 2 sampel gabungan , dan Anda dapat menyimpulkan observasi baru tersebut dapat menghasilkan populasi yang sama karena Nilai-P adalah 0,078 (jika Anda suka menguji pada tingkat 5%).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

Lebih dari separuh grup referensi serupa akan menyebabkan penolakan:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711