Il 95% è specifico per l'intervallo di confidenza in qualche modo?

Aug 16 2020

Sono consapevole del malinteso che "un intervallo di confidenza al 95% significa che c'è una probabilità del 95% che il vero parametro rientri in questo intervallo" e che l'interpretazione corretta è che se costruisci, diciamo, 100 di questi intervalli di campionamento casuale, quindi 95 degli intervalli di confidenza dovrebbero includere il vero parametro.

In https://www.econometrics-with-r.org/5-2-cifrc.html, Vedo quanto segue:

Questa formulazione è errata? Sembra che il valore reale abbia una probabilità del 95% di rientrare in quello specifico intervallo di confidenza.

La mia seconda domanda è: diciamo che hai uno di questi 95 intervalli di confidenza. Oltre a utilizzare il 95% per ottenere lo Z-score di 1,96, in quale altro modo si manifesta il 95% in questo intervallo di confidenza?

Risposte

27 PedroSebe Aug 16 2020 at 11:54

Questa formulazione è errata? Sembra che il valore reale abbia una probabilità del 95% di rientrare in quello specifico intervallo di confidenza.

Devi tenere presente che, nelle statistiche frequentiste, il parametro che stai stimando (nel tuo caso $\beta_i$, il vero valore del coefficiente) non è considerato come una variabile casuale, ma come un numero reale fisso. Ciò significa che non è corretto dire qualcosa come "$\beta_i$ è nell'intervallo $[a,b]$ con $95\%$probabilità " , perché$\beta_i$non è una variabile casuale e quindi non ha una distribuzione di probabilità. La probabilità di$\beta_i$ essere nell'intervallo è l'uno o l'altro $100\%$ (se il valore fisso $\beta_i\in[a,b]$) o $0\%$ (se il valore fisso $\beta_i\notin[a,b]$)

Questo è il motivo per cui "l'intervallo di confidenza del 95% significa che c'è una probabilità del 95% che il vero parametro rientri in questo intervallo" è un'idea sbagliata.

D'altra parte, i limiti dell'intervallo di confidenza stessi sono variabili casuali, poiché sono calcolati dai dati del campione. Ciò significa che è corretto dire "nel 95% di tutti i possibili campioni,$\beta_i$ è compreso nell'intervallo di confidenza del 95% ". Non significa questo $\beta_i$ ha $95\%$possibilità di trovarsi all'interno di un particolare intervallo, significa che ha l'intervallo di confidenza , che è diverso per ogni campione$95\%$ probabilità di cadere $\beta_i$.

Notare che l'intervallo di confidenza conterrà $\beta_i$con una probabilità del 95% prima che i dati vengano campionati. Dopo che è stato campionato, i bordi degli intervalli di confidenza saranno solo due numeri fissi, non più variabili casuali e si applica la stessa logica del primo paragrafo. Penso che la seguente immagine offra una bella visualizzazione a questa idea:

Pertanto, la formulazione utilizzata è effettivamente corretta.

Oltre a utilizzare il 95% per ottenere lo Z-score di 1,96, in quale altro modo si manifesta il 95% in questo intervallo di confidenza?

Lo Z-score di 1,96 è l'unico punto in cui compare il 95%. Se lo modifichi per il punteggio Z corrispondente, ad esempio, all'85%, avresti la formula dell'intervallo di confidenza dell'85%.

7 Stefan Aug 16 2020 at 12:43

Forse se riformuli in:

" Immagina di ripetere il campionamento nelle stesse identiche condizioni per un tempo indefinito. Per ogni estrazione calcoli una stima del parametro e il suo errore standard al fine di calcolare un intervallo di confidenza del 95% [formula nella tua figura]. Quindi questo intervallo di confidenza del 95% acquisirà il vero parametro della popolazione nel 95% delle volte se tutte le ipotesi sono soddisfatte e l'ipotesi nulla è vera " .

Avrebbe più senso?

Per quanto riguarda la tua seconda domanda, considera la distribuzione normale standard di seguito. L'area totale sotto la curva è uguale a 1. Se consideri il livello di significatività pari al 5% e lo dividi tra ciascuna coda (aree rosse), ti rimane il 95% al ​​centro. Se l'ipotesi nulla è vera, questa è l'area in cui non rifiuteresti l'ipotesi nulla poiché qualsiasi punteggio Z che rientra in quell'area è plausibile sotto l'ipotesi nulla. Solo se il tuo punteggio Z rientra nelle aree rosse, rifiuti l'ipotesi nulla, poiché il tuo campione fornisce prove significative contro l'ipotesi nulla, o in altre parole probabilmente hai fatto una scoperta - evviva: D

Ora moltiplicando lo Z-score critico di +/- 1,96 (in caso di confidenza del 95%) con l'errore standard del campione si traduce questo intervallo del 95% sulla scala di misurazione originale. Quindi ogni intervallo di confidenza corrisponde a un test di ipotesi sulla scala di misurazione come suggerito nell'ultima frase della tua immagine.

1 ivan866 Aug 18 2020 at 03:35

95% conf.int.significa che c'è solo una probabilità del 5% che il valore empirico effettivo non rientri in questo intervallo. In altre parole, il 5% di possibilità di falsi positivi se (e quando) tratti quell'intervallo come verità fondamentale.