Wie kann$t$-Statistik verwendet werden, um Hypothesen zu testen?

Aug 15 2020

Ich habe folgende Frage: Eine Zufallsstichprobe der Größe 25 aus einer Normalverteilung hat einen Mittelwert von 47 und eine Standardabweichung von 7. Basierend auf$t$-Statistik, können wir sagen, dass die gegebenen Informationen die Vermutung stützen, dass der Mittelwert der Bevölkerung 42 ist?

Ich bin wirklich verwirrt, wie$t$-Statistik funktioniert, um eine Hypothese abzulehnen oder nicht abzulehnen. Eine Erklärung wäre wirklich hilfreich. Vielen Dank!

Antworten

2 BruceET Aug 16 2020 at 01:35

Zweiseitiger T-Test bei einer Stichprobe

Habe gerade zufällig einen normalen Datensatz mit$n=25, \bar X = 57, S = 7$in meinem R-Sitzungsfenster.

Sind die Daten für den Test geeignet? Hier ist eine Zusammenfassung der Daten, berechnet von R:

summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  35.18   40.78   44.83   47.00   52.35   61.34 
length(x); sd(x)
[1] 25   # sample size n = 25
[1] 7    # sample standard deviation S = 7.0

stripchart(x, pch="|")

Annähernd symmetrische Daten ohne weit entfernte Ausreißer; besteht den Shapiro-Wilk-Normalitätstest mit einem darüber liegenden P-Wert$0.05 = 5\%.$

shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.96136, p-value = 0.4423

Die Daten sind nahe genug am Normalwert, um beim Test gültig zu sein.

R-Ausdruck für den t-Test. Somit ist hier die Ausgabe von R für einen Ein-Stichproben-t-Test von$H_0: \mu = 42$gegen$H_a: \mu \ne 42.$

t.test(x, mu=42)

        One Sample t-test

data:  x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis: 
  true mean is not equal to 42
95 percent confidence interval:
  44.11054 49.88946
sample estimates:
mean of x 
       47

Interpretation der Ausgabe. Der P-Wert ist$0.0015 < 0.05 = 5\%,$also würdest du ablehnen$H_0$auf dem 5%-Signifikanzniveau. Sie könnten auch auf dem 1%-Niveau ablehnen.

Die Ausgabe gibt auch ein 95 % Konfidenzintervall (CI)$(44.11, 49.89),$so können wir auf den wahren Wert von schließen$\mu$ist in diesem Intervall - das nicht enthält$\mu = 42.$

Eine Interpretation dieses KI ist, dass es sich basierend auf Ihren Daten um ein Intervall von „nicht widerlegbaren“ Nullhypothesen handelt.

Details, die Sie über den Test wissen sollten. @PeterForeman hat Ihnen gezeigt, wie Sie die T-Statistik berechnen. Bis auf den P-Wert sollten Sie alles andere in der Ausgabe per Handrechnung reproduzieren können.

Genaue P-Werte sind in Computerausdrucken angegeben. Wenn Sie sich eine gedruckte Tabelle von t ansehen, sollten Sie in der Lage sein, den P-Wert einzuklammern. Zum Beispiel hat meine Tabelle die Werte 2,467 und 3,745 in Zeile DF = 24, die die T-Statistik 3,5714 einschließen. Wenn ich auf den oberen Rand meiner Tabelle schaue, sehe ich, dass der P-Wert zwischen liegen muss$2(0.001) = 0.002$und$2(0.0005) = 0.001,$was mit dem Wert von R übereinstimmt. [Die 2s sind, weil dies ein zweiseitiger t-Test ist.]
Sie können den genauen P-Wert dieses zweiseitigen Tests in R oder einer anderen Statistiksoftware abrufen. Es ist die Wahrscheinlichkeit einer weiter entfernten T-Statistik$0$als das Beobachtete$T =3.5714.$In R, wo pteine CDF der Student-t-Verteilung ist, bringt Sie die folgende Berechnung sehr nahe an den P-Wert im Ausdruck. (Wenn der Wert der gemeldeten T-Statistik gerundet wird, stimmt der P-Wert möglicherweise nicht genau überein, aber nur die ersten paar Dezimalstellen sind für die Entscheidungsfindung von Bedeutung.)

2 * (1 - pt(3.5714, 24))
[1] 0.001543522

Um eine Ihrer Fragen in den Kommentaren zu beantworten: Aus der gedruckten t-Tabelle können Sie sagen, dass ein kritischer Wert für die Ablehnung bei 5% liegt$c = 2.064.$Das heißt, Sie würden auf dem 5%-Niveau ablehnen$|T| > 2.064,$was es ist. Der kritische Wert verringert die Wahrscheinlichkeit$0.025 = 2.5\% $aus dem oberen Ende der Student-t-Verteilung mit DF = 24. In R, wobei qteine Quantilfunktion (inverse CDF) ist, können Sie den kritischen Wert von 5 % wie unten gezeigt erhalten. Was ist der kritische Wert für einen Test auf dem Signifikanzniveau von 1 %?

${}$

qt(.975, 24)
[1] 2.063899

Grafische Zusammenfassung. Die folgende Abbildung zeigt die Dichtefunktion der Student-t-Verteilung mit 24 DF. Das vertikale blaue Like zeigt den beobachteten Wert der T-Statistik. Der P-Wert ist das Doppelte der Fläche unter der Kurve rechts von dieser Linie. Untere und obere kritische Werte für einen Test auf dem 5 %-Niveau werden durch vertikale gepunktete orangefarbene Linien angezeigt; rote Linien (weiter außen) für einen Test auf dem 1%-Niveau.