95% est-il spécifique à l'intervalle de confiance d'une manière ou d'une autre?
Je suis conscient de l’idée fausse selon laquelle «un intervalle de confiance à 95% signifie qu’il y a 95% de chances que le vrai paramètre tombe dans cette plage» et que l’interprétation correcte est que si vous construisez, disons, 100 de ces intervalles de échantillonnage aléatoire, puis 95 des intervalles de confiance devraient inclure le vrai paramètre.
Dans https://www.econometrics-with-r.org/5-2-cifrc.html, Je vois ce qui suit:
Ce libellé est-il incorrect? Cela semble dire que la vraie valeur a 95% de chances d'être dans cet intervalle de confiance spécifique.
Ma deuxième question est, disons que vous avez l'un de ces 95 intervalles de confiance. En plus d'utiliser 95% pour obtenir le score Z de 1,96, comment les 95% se manifestent-ils autrement dans cet intervalle de confiance?
Réponses
Ce libellé est-il incorrect? Cela semble dire que la vraie valeur a 95% de chances d'être dans cet intervalle de confiance spécifique.
Vous devez garder à l'esprit que, dans les statistiques fréquentistes, le paramètre que vous estimez (dans votre cas $\beta_i$, la vraie valeur du coefficient) n'est pas considérée comme une variable aléatoire, mais comme un nombre réel fixe. Cela signifie qu'il n'est pas correct de dire quelque chose comme "$\beta_i$ est dans l'intervalle $[a,b]$ avec $95\%$probabilité " , car$\beta_i$n'est pas une variable aléatoire et n'a donc pas de distribution de probabilité. La probabilité de$\beta_i$ être dans l'intervalle est soit $100\%$ (si la valeur fixe $\beta_i\in[a,b]$) ou $0\%$ (si la valeur fixe $\beta_i\notin[a,b]$)
C'est pourquoi «un intervalle de confiance à 95% signifie qu'il y a 95% de chances que le vrai paramètre tombe dans cette plage» est une idée fausse.
En revanche, les limites de l'intervalle de confiance elles-mêmes sont des variables aléatoires, puisqu'elles sont calculées à partir des données de l'échantillon. Cela signifie qu'il est correct de dire "dans 95% de tous les échantillons possibles,$\beta_i$ se situe dans l'intervalle de confiance de 95% ". Cela ne signifie pas que $\beta_i$ a $95\%$chance d'être à l'intérieur d'un intervalle particulier, cela signifie que l'intervalle de confiance , qui est différent pour chaque échantillon, a$95\%$ probabilité de tomber $\beta_i$.
Notez que l'intervalle de confiance contiendra $\beta_i$avec une probabilité de 95% avant que les données ne soient échantillonnées. Après avoir été échantillonné, les bords des intervalles de confiance ne seront plus que deux nombres fixes, et non plus des variables aléatoires et la même justification du premier paragraphe s'applique. Je pense que l'image suivante offre une belle visualisation à cette idée:
Par conséquent, le libellé utilisé ici est en fait correct.
En plus d'utiliser 95% pour obtenir le score Z de 1,96, comment les 95% se manifestent-ils autrement dans cet intervalle de confiance?
Le score Z de 1,96 est le seul endroit où les 95% apparaissent. Si vous le changez pour le score Z correspondant à, disons, 85%, vous auriez la formule intervalle de confiance de 85%.
Peut-être si vous reformulez comme suit:
" Imaginez que vous répétiez indéfiniment votre échantillonnage dans les mêmes conditions exactes. Pour chaque tirage, vous calculez une estimation de paramètre et son erreur standard afin de calculer un intervalle de confiance à 95% [formule de votre figure]. Ensuite, cet intervalle de confiance à 95% capturera le vrai paramètre de population dans 95% du temps si toutes les hypothèses sont satisfaites et que l'hypothèse nulle est vraie. "
Cela aurait-il plus de sens?
Quant à votre deuxième question, considérez la distribution normale standard ci-dessous. L'aire totale sous la courbe est égale à 1. Si vous considérez que le niveau de signification est de 5% et que vous le répartissez entre chaque queue (zones rouges), alors vous vous retrouvez avec 95% au milieu. Si l'hypothèse nulle est vraie, il s'agit de la zone dans laquelle vous ne rejetteriez pas l'hypothèse nulle car tout score Z qui tombe dans cette zone est plausible sous l'hypothèse nulle. Seulement si votre score Z tombe dans les zones rouges, vous rejetez l'hypothèse nulle, puisque votre échantillon fournit des preuves significatives contre l'hypothèse nulle, ou en d'autres termes vous avez probablement fait une découverte - hourra: D
Maintenant, en multipliant le Z-score critique de +/- 1,96 (dans le cas d'une confiance à 95%) par l'erreur standard de l'échantillon, vous traduisez cet intervalle de 95% sur l'échelle de mesure d'origine. Ainsi, chaque intervalle de confiance correspond à un test d'hypothèse sur votre échelle de mesure comme suggéré dans la dernière phrase de votre image.
95% conf.int.
signifie qu'il n'y a que 5% de chances que la valeur empirique réelle tombe en dehors de cet intervalle. En d'autres termes, 5% de chances de faux positifs si (et quand) vous traitez cette plage comme une vérité terrain.