Wie kann$t$-Statistik verwendet werden, um Hypothesen zu testen?
Ich habe folgende Frage: Eine Zufallsstichprobe der Größe 25 aus einer Normalverteilung hat einen Mittelwert von 47 und eine Standardabweichung von 7. Basierend auf$t$-Statistik, können wir sagen, dass die gegebenen Informationen die Vermutung stützen, dass der Mittelwert der Bevölkerung 42 ist?
Ich bin wirklich verwirrt, wie$t$-Statistik funktioniert, um eine Hypothese abzulehnen oder nicht abzulehnen. Eine Erklärung wäre wirklich hilfreich. Vielen Dank!
Antworten
Zweiseitiger T-Test bei einer Stichprobe
Habe gerade zufällig einen normalen Datensatz mit$n=25, \bar X = 57, S = 7$in meinem R-Sitzungsfenster.
Sind die Daten für den Test geeignet? Hier ist eine Zusammenfassung der Daten, berechnet von R:
summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
35.18 40.78 44.83 47.00 52.35 61.34
length(x); sd(x)
[1] 25 # sample size n = 25
[1] 7 # sample standard deviation S = 7.0
stripchart(x, pch="|")

Annähernd symmetrische Daten ohne weit entfernte Ausreißer; besteht den Shapiro-Wilk-Normalitätstest mit einem darüber liegenden P-Wert$0.05 = 5\%.$
shapiro.test(x)
Shapiro-Wilk normality test
data: x
W = 0.96136, p-value = 0.4423
Die Daten sind nahe genug am Normalwert, um beim Test gültig zu sein.
R-Ausdruck für den t-Test. Somit ist hier die Ausgabe von R für einen Ein-Stichproben-t-Test von$H_0: \mu = 42$gegen$H_a: \mu \ne 42.$
t.test(x, mu=42)
One Sample t-test
data: x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis:
true mean is not equal to 42
95 percent confidence interval:
44.11054 49.88946
sample estimates:
mean of x
47
Interpretation der Ausgabe. Der P-Wert ist$0.0015 < 0.05 = 5\%,$also würdest du ablehnen$H_0$auf dem 5%-Signifikanzniveau. Sie könnten auch auf dem 1%-Niveau ablehnen.
Die Ausgabe gibt auch ein 95 % Konfidenzintervall (CI)$(44.11, 49.89),$so können wir auf den wahren Wert von schließen$\mu$ist in diesem Intervall - das nicht enthält$\mu = 42.$
Eine Interpretation dieses KI ist, dass es sich basierend auf Ihren Daten um ein Intervall von „nicht widerlegbaren“ Nullhypothesen handelt.
Details, die Sie über den Test wissen sollten. @PeterForeman hat Ihnen gezeigt, wie Sie die T-Statistik berechnen. Bis auf den P-Wert sollten Sie alles andere in der Ausgabe per Handrechnung reproduzieren können.
Genaue P-Werte sind in Computerausdrucken angegeben. Wenn Sie sich eine gedruckte Tabelle von t ansehen, sollten Sie in der Lage sein, den P-Wert einzuklammern. Zum Beispiel hat meine Tabelle die Werte 2,467 und 3,745 in Zeile DF = 24, die die T-Statistik 3,5714 einschließen. Wenn ich auf den oberen Rand meiner Tabelle schaue, sehe ich, dass der P-Wert zwischen liegen muss$2(0.001) = 0.002$und$2(0.0005) = 0.001,$was mit dem Wert von R übereinstimmt. [Die
2
s sind, weil dies ein zweiseitiger t-Test ist.]Sie können den genauen P-Wert dieses zweiseitigen Tests in R oder einer anderen Statistiksoftware abrufen. Es ist die Wahrscheinlichkeit einer weiter entfernten T-Statistik$0$als das Beobachtete$T =3.5714.$In R, wo
pt
eine CDF der Student-t-Verteilung ist, bringt Sie die folgende Berechnung sehr nahe an den P-Wert im Ausdruck. (Wenn der Wert der gemeldeten T-Statistik gerundet wird, stimmt der P-Wert möglicherweise nicht genau überein, aber nur die ersten paar Dezimalstellen sind für die Entscheidungsfindung von Bedeutung.)
.
2 * (1 - pt(3.5714, 24))
[1] 0.001543522
- Um eine Ihrer Fragen in den Kommentaren zu beantworten: Aus der gedruckten t-Tabelle können Sie sagen, dass ein kritischer Wert für die Ablehnung bei 5% liegt$c = 2.064.$Das heißt, Sie würden auf dem 5%-Niveau ablehnen$|T| > 2.064,$was es ist. Der kritische Wert verringert die Wahrscheinlichkeit$0.025 = 2.5\% $aus dem oberen Ende der Student-t-Verteilung mit DF = 24. In R, wobei
qt
eine Quantilfunktion (inverse CDF) ist, können Sie den kritischen Wert von 5 % wie unten gezeigt erhalten. Was ist der kritische Wert für einen Test auf dem Signifikanzniveau von 1 %?
${}$
qt(.975, 24)
[1] 2.063899
Grafische Zusammenfassung. Die folgende Abbildung zeigt die Dichtefunktion der Student-t-Verteilung mit 24 DF. Das vertikale blaue Like zeigt den beobachteten Wert der T-Statistik. Der P-Wert ist das Doppelte der Fläche unter der Kurve rechts von dieser Linie. Untere und obere kritische Werte für einen Test auf dem 5 %-Niveau werden durch vertikale gepunktete orangefarbene Linien angezeigt; rote Linien (weiter außen) für einen Test auf dem 1%-Niveau.
