Comment comparer un exemple avec un échantillon de données?

Aug 17 2020

Je le réalise $t$-test sont généralement utilisés pour vérifier par exemple si un échantillon appartient à la population, ou si deux échantillons sont différents.

Et si vous avez un échantillon de $n=200$et vous voulez vérifier quelle est la probabilité qu'un nouvel exemple individuel fasse partie de cet échantillon. Ou plutôt je veux juste savoir où se trouve l'exemple dans la distribution de l'échantillon!

Réponses

3 BruceET Aug 17 2020 at 21:06

Cette question est similaire à celle du lien @ StatsStudent, que vous devriez lire. Cependant, une différence majeure et cruciale est que votre échantillon de comparaison est beaucoup plus grand avec$n = 200.$

Supposons que vous ayez une population normale $\mathsf{Norm}(\mu=100, \sigma=15)$ et une observation supplémentaire $X = 130.$Vous pouvez demander quelle est la probabilité que la nouvelle observation provienne de cette population. Une réponse traditionnelle, c'est que$P(X \ge 130) = P(Z > (130-100)/15 = 2)\approx 0.023.$ Donc, si vous interprétez cela comme une valeur P, vous diriez, probablement pas (si vous aimez tester au niveau de 5%).

1 - pnorm(130, 100, 15)
[1] 0.02275013

1 - pnorm(2)            # std normal w/o extra parameters
[1] 0.02275013

Supposons maintenant que vous ayez un échantillon de taille $n = 200.$ Inconnu pour vous, c'est de $\mathsf{Norm}(\mu=100, \sigma=15).$Vous êtes prêt à supposer que votre nouvelle observation provient d'une population avec la même variance que votre échantillon de 200. Ensuite, vous pourriez faire un test t à 2 échantillons groupés , et vous pourriez conclure que la nouvelle observation pourrait provenir de la même population parce que le La valeur P est de 0,078 (si vous aimez tester au niveau de 5%).

set.seed(2020)
x2 = rnorm(200, 100, 15)
t.test(130, x2, var.eq = T)

        Two Sample t-test

data:  130 and x2
t = 1.7697, df = 199, p-value = 0.0783
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.433716 63.535081
sample estimates:
mean of x mean of y 
130.00000  99.94932 

Un peu plus de la moitié des groupes de référence similaires conduiraient au rejet:

set.seed(2020)
x = 130
pv = replicate(10^5, t.test(x, rnorm(200,100,15), var.eq=T)$p.val)
mean(pv <= 0.05)
[1] 0.58711