Làm thế nào để so sánh một ví dụ với một mẫu dữ liệu?

Aug 17 2020

Tôi nhận ra rằng $t$-test thường được sử dụng để kiểm tra ví dụ nếu một mẫu thuộc về tổng thể, hoặc nếu hai mẫu khác nhau.

Còn nếu bạn có một mẫu $n=200$và bạn muốn kiểm tra xác suất một ví dụ riêng lẻ mới là một phần của mẫu đó là bao nhiêu. Hay đúng hơn là tôi chỉ muốn biết vị trí trong phân phối của ví dụ đó!

Trả lời

3 BruceET Aug 17 2020 at 21:06

Câu hỏi này tương tự như câu hỏi trong liên kết của @ StatsStudent mà bạn nên đọc. Tuy nhiên, điểm khác biệt chính và quan trọng là mẫu so sánh của bạn lớn hơn nhiều với$n = 200.$

Giả sử bạn có một dân số bình thường $\mathsf{Norm}(\mu=100, \sigma=15)$ và một quan sát bổ sung $X = 130.$Bạn có thể hỏi khả năng quan sát mới có thể đến từ quần thể đó như thế nào. Một câu trả lời truyền thống, đó là$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Vì vậy, nếu bạn diễn giải đây là giá trị P mà bạn nói, có thể là không (nếu bạn muốn thử nghiệm ở mức 5%).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

Bây giờ, giả sử bạn có một mẫu kích thước $n = 200.$ Bạn không biết nó đến từ $\mathsf{Norm}(\mu=100, \sigma=15).$Bạn sẵn sàng cho rằng quan sát mới của mình là từ một tập hợp có cùng phương sai với mẫu 200 của bạn. Sau đó, bạn có thể thực hiện kiểm tra t gộp 2 mẫu và bạn có thể kết luận rằng quan sát mới có thể có cùng một quần thể vì Giá trị P là 0,078 (nếu bạn thích thử nghiệm ở mức 5%).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

Hơn một nửa số nhóm tham chiếu tương tự sẽ dẫn đến việc bị từ chối:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711