Como comparar um exemplo com uma amostra de dados?

Aug 17 2020

Eu percebo que $t$-teste são normalmente usados ​​para verificar, por exemplo, se uma amostra pertence à população ou se duas amostras são diferentes.

E se você tiver uma amostra de $n=200$e você deseja verificar qual é a probabilidade de um novo exemplo individual fazer parte dessa amostra. Ou melhor, só quero saber onde está o exemplo na distribuição da amostra!

Respostas

3 BruceET Aug 17 2020 at 21:06

Esta pergunta é semelhante à do link de @StatsStudent, que você deve ler. No entanto, uma diferença importante e crucial é que sua amostra de comparação é muito maior com$n = 200.$

Suponha que você tenha uma população normal $\mathsf{Norm}(\mu=100, \sigma=15)$ e uma observação adicional $X = 130.$Você pode perguntar qual é a probabilidade de que a nova observação possa ter vindo dessa população. Uma resposta tradicional é que$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Então, se você interpretar isso como um valor P, você dirá, provavelmente não (se você gosta de testar no nível de 5%).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

Agora suponha que você tenha uma amostra de tamanho $n = 200.$ Desconhecido para você, é de $\mathsf{Norm}(\mu=100, \sigma=15).$Você está disposto a assumir que sua nova observação é de uma população com a mesma variância que sua amostra de 200. Em seguida, você pode fazer um teste t combinado de 2 amostras e concluir que a nova observação pode ter vindo da mesma população, porque o O valor P é 0,078 (se você gosta de testar no nível de 5%).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

Um pouco mais da metade dos grupos de referência semelhantes levaria à rejeição:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711