Comment puis$t$-statistic être utilisé pour tester l'hypothèse?
J'ai la question suivante : un échantillon aléatoire de taille 25 à partir d'une distribution normale a une moyenne de 47 et un écart type de 7. Basé sur$t$-statistiques, peut-on dire que l'information donnée supporte la conjecture que la moyenne de la population est de 42 ?
Je suis vraiment confus comment$t$-les statistiques fonctionnent pour rejeter ou ne pas rejeter une hypothèse. Une explication serait vraiment utile. Merci!
Réponses
Test T bilatéral à un échantillon
Juste arrivé d'avoir un ensemble de données normal avec$n=25, \bar X = 57, S = 7$dans ma fenêtre R Session.
Les données sont-elles appropriées pour le test ? Voici un résumé des données, calculées par R :
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
35.18 40.78 44.83 47.00 52.35 61.34
length(x); sd(x)
[1] 25 # sample size n = 25
[1] 7 # sample standard deviation S = 7.0
stripchart(x, pch="|")
Données approximativement symétriques sans valeurs aberrantes éloignées ; réussit le test de normalité de Shapiro-Wilk avec une valeur P supérieure$0.05 = 5\%.$
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.96136, p-value = 0.4423
Les données sont suffisamment proches de la normale pour qu'un test soit valide.
Impression R pour le test t. Ainsi, voici la sortie de R pour un test t à un échantillon de$H_0: \mu = 42$contre$H_a: \mu \ne 42.$
t.test(x, mu=42)
One Sample t-test
data: x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis:
true mean is not equal to 42
95 percent confidence interval:
44.11054 49.88946
sample estimates:
mean of x
47
Interprétation de la sortie. La valeur P est$0.0015 < 0.05 = 5\%,$donc tu rejetterais$H_0$au seuil de signification de 5 %. Vous pouvez également rejeter au niveau de 1 %.
La sortie donne également un intervalle de confiance (IC) à 95 %$(44.11, 49.89),$afin que nous puissions conclure à la vraie valeur de$\mu$est dans cet intervalle - qui ne contient pas$\mu = 42.$
Une interprétation de cet IC est qu'il s'agit d'un intervalle d'hypothèses nulles "non rejetables", basé sur vos données.
Détails que vous devriez connaître sur le test. @PeterForeman vous a montré comment calculer la statistique T. À l'exception de la valeur P, vous devriez être en mesure de reproduire tout le reste dans la sortie par calcul manuel.
Les valeurs P exactes sont données sur les imprimés d'ordinateur. En regardant un tableau imprimé de t, vous devriez être en mesure de « mettre entre parenthèses » la valeur P. Par exemple, mon tableau a les valeurs 2,467 et 3,745 sur la ligne DF = 24, qui encadrent la statistique T 3,5714. En regardant la marge supérieure de mon tableau, je vois que la valeur P doit être comprise entre$2(0.001) = 0.002$et$2(0.0005) = 0.001,$qui correspond à la valeur de R. [Les
2
s sont parce qu'il s'agit d'un test t bilatéral.]Vous pouvez obtenir la valeur P exacte de ce test bilatéral dans R ou un autre logiciel statistique. C'est la probabilité d'une statistique T plus éloignée de$0$que l'observé$T =3.5714.$Dans R, où
pt
est un CDF de la distribution t de Student, le calcul suivant vous rapproche beaucoup de la valeur P dans l'impression. (Si la valeur de la statistique T rapportée est arrondie, la valeur P peut ne pas correspondre exactement, mais seules les deux premières décimales comptent pour la prise de décision.)
.
2 * (1 - pt(3.5714, 24))
[1] 0.001543522
- Pour répondre à l'une de vos questions dans les commentaires : à partir du tableau t imprimé, vous pouvez dire qu'une valeur critique pour le rejet au niveau de 5 % est$c = 2.064.$C'est-à-dire que vous rejetteriez au niveau de 5 % de$|T| > 2.064,$dont il s'agit. La valeur critique réduit la probabilité$0.025 = 2.5\% $à partir de la queue supérieure de la distribution t de Student avec DF = 24. Dans R, où
qt
est une fonction quantile (inverse CDF), vous pouvez obtenir la valeur critique de 5 % comme indiqué ci-dessous. Quelle est la valeur critique d'un test au seuil de signification de 1 % ?
${}$
qt(.975, 24)
[1] 2.063899
Résumé graphique. La figure ci-dessous montre la fonction de densité de la distribution t de Student avec 24 DF. Le bleu vertical indique la valeur observée de la statistique T. La valeur P est le double de l'aire sous la courbe à droite de cette ligne. Les valeurs critiques inférieures et supérieures pour un essai au niveau de 5 % sont indiquées par des lignes orange pointillées verticales ; lignes rouges (plus éloignées) pour un test au niveau de 1 %.