Come può$t$-la statistica può essere utilizzata per verificare l'ipotesi?

Aug 15 2020

Ho la seguente domanda: un campione casuale di dimensione 25 da una distribuzione normale ha media 47 e deviazione standard 7. Basato su$t$-statistiche, possiamo dire che le informazioni fornite supportano la congettura che la media della popolazione sia 42?

Sono davvero confuso come$t$-la statistica funziona per rifiutare o non rifiutare un'ipotesi. Una spiegazione sarebbe davvero utile. Grazie!

Risposte

2 BruceET Aug 16 2020 at 01:35

Test T su un campione a due lati

Mi è capitato di avere un normale set di dati con$n=25, \bar X = 57, S = 7$nella finestra della mia sessione R.

I dati sono appropriati per il test? Ecco un riepilogo dei dati, calcolati da R:

summary(x)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  35.18   40.78   44.83   47.00   52.35   61.34 
length(x); sd(x)
[1] 25   # sample size n = 25
[1] 7    # sample standard deviation S = 7.0

stripchart(x, pch="|")

Dati approssimativamente simmetrici senza outlier lontani; supera il test di normalità di Shapiro-Wilk con un valore P superiore$0.05 = 5\%.$

shapiro.test(x)

        Shapiro-Wilk normality test

data:  x
W = 0.96136, p-value = 0.4423

I dati sono abbastanza vicini alla norma perché il test sia valido.

Stampa R per il test t. Pertanto, ecco l'output di R per un test t di un campione di$H_0: \mu = 42$contro$H_a: \mu \ne 42.$

t.test(x, mu=42)

        One Sample t-test

data:  x
t = 3.5714, df = 24, p-value = 0.001543
alternative hypothesis: 
  true mean is not equal to 42
95 percent confidence interval:
  44.11054 49.88946
sample estimates:
mean of x 
       47 

Interpretazione dell'output. Il valore P è$0.0015 < 0.05 = 5\%,$quindi rifiuteresti$H_0$al livello di significatività del 5%. Potresti anche rifiutare al livello dell'1%.

L'output fornisce anche un intervallo di confidenza del 95% (CI)$(44.11, 49.89),$quindi possiamo concludere il vero valore di$\mu$è in quell'intervallo che non contiene$\mu = 42.$

Un'interpretazione di questo CI è che si tratta di un intervallo di ipotesi nulle "non rifiutabili", basate sui tuoi dati.

Dettagli che dovresti conoscere sul test. @PeterForeman ti ha mostrato come calcolare la statistica T. Ad eccezione del valore P, dovresti essere in grado di riprodurre tutto il resto nell'output mediante calcolo manuale.

  • I valori P esatti sono forniti nelle stampe del computer. Osservando una tabella stampata di t, dovresti essere in grado di "mettere tra parentesi" il valore P. Ad esempio, la mia tabella ha valori 2.467 e 3.745 sulla riga DF = 24, che racchiudono la statistica T 3.5714. Guardando il margine superiore del mio tavolo, vedo che il valore P deve essere compreso tra$2(0.001) = 0.002$e$2(0.0005) = 0.001,$che concorda con il valore di R. [Le 2s sono perché questo è un test t a 2 code.]

  • Puoi ottenere l'esatto valore P di questo test a 2 code in R o altro software statistico. È la probabilità di una statistica T più lontana da$0$rispetto a quanto osservato$T =3.5714.$In R, dove ptè un CDF della distribuzione t di Student, il seguente calcolo ti avvicina molto al valore P nella stampa. (Se il valore della statistica T riportata è arrotondato, il valore P potrebbe non corrispondere esattamente, ma solo la prima coppia di cifre decimali conta per il processo decisionale.)

.

2 * (1 - pt(3.5714, 24))
[1] 0.001543522
  • Per rispondere a una delle tue domande nei commenti: Dalla tabella t stampata, puoi dire che un valore critico per il rifiuto al livello del 5% è$c = 2.064.$Cioè, rifiuteresti al livello del 5%.$|T| > 2.064,$che è. Il valore critico riduce la probabilità$0.025 = 2.5\% $dalla coda superiore della distribuzione t di Student con DF = 24. In R, dove qtè una funzione quantile (CDF inversa), è possibile ottenere il valore critico del 5% come mostrato di seguito. Qual è il valore critico per un test al livello di significatività dell'1%?

${}$

qt(.975, 24)
[1] 2.063899

Sintesi grafica. La figura seguente mostra la funzione di densità della distribuzione t di Student con 24 DF. Il mi piace verticale blu mostra il valore osservato della statistica T. Il valore P è il doppio dell'area sotto la curva a destra di questa linea. I valori critici inferiore e superiore per un test al livello del 5% sono indicati da linee arancioni tratteggiate verticali; linee rosse (più lontane) per un test al livello dell'1%.