Pourquoi un petit $p$-value indique une incompatibilité avec la valeur nulle?
Prenons, à titre d'exemple simple, le test d'hypothèse bilatéral à un échantillon sur la moyenne de la population. Supposons que nous ayons déterminé un$\alpha$-niveau a priori.
Laisser $X_1, \dots, X_n \overset{\text{iid}}{\sim}\mathcal{N}(\mu, \sigma^2)$. Dans ce cadre, étant donné une valeur$\mu_0$, nous avons les hypothèses nulles et alternatives $H_0: \mu = \mu_0$ et $H_1: \mu \neq \mu_0$.
Laisser $\bar{X}_n$ être la moyenne d'échantillon de $X_1, \dots, X_n$ et $S^2$ être l'estimateur sans biais de $\sigma^2$, avec $\bar{x}_n$ et $s^2$ étant les valeurs observées.
Nous savons que $$\dfrac{\bar{X}_n - \mu}{\sqrt{S^2/n}} \sim t_{n-1}$$ c'est-à-dire un $t$-distribution avec $n-1$degrés de liberté. Sous$H_0$, nous avons ça $$\dfrac{\bar{X}_n - \mu_0}{\sqrt{S^2/n}} \sim t_{n-1}\text{.}$$ Ensuite, nous calculons un $p$-évaluer $$p = \mathbb{P}\left(|T| \geq \dfrac{\bar{x}_n - \mu_0}{\sqrt{s^2/n}} \right)$$ où $T \sim t_{n-1}$ et si $p < \alpha$, nous rejetons $H_0$ et déclarez qu'il existe des preuves pour $H_1$.
Maintenant, j'ai fait cette procédure pendant des années, et je suis un peu gêné de demander cela, étant donné que je suis titulaire d'un diplôme de MS: mais exactement pourquoi avoir$p < \alpha$ indiquer une incompatibilité avec $H_0$ et des preuves pour $H_1$? Mathématiquement, tout ce qu'il y a à la fin de la journée est la probabilité que votre variable aléatoire$T$prend une valeur au moins aussi extrême (en valeur absolue) que celle fournie par l'échantillon. Mais je ne vois pas pourquoi avoir$p < \alpha$ indique que nous avons des preuves à rejeter $H_0$.
Peut-être que cela a peut-être été couvert par Casella et Berger et j'ai oublié les détails.
Réponses
Utilisons une analogie.
Vous vous réveillez confus quant au jour que nous sommes. Pire encore, vous ne connaissez même pas le mois, bien que vous ayez l'impression que ce pourrait être l'été, mais vous voulez que ce soit l'hiver (alors$H_0: \text{summer}$ et $H_a: \text{winter}$). Vous ne faites pas confiance au calendrier de votre téléphone, mais vous faites confiance à l'application météo, vous vérifiez donc la température.
Vous voyez que l'application météo signale la température comme $-24^{\circ} C$.
Vous savez qu'être aussi froid ou plus froid est très improbable pendant l'été, alors vous rejetez l'idée que c'est l'été au profit de conclure que c'est l'hiver.
Dans cette analogie, la valeur critique donnant suffisamment $p <\alpha$ est la température à laquelle vous douteriez tellement de votre intuition que c'est l'été que vous concluriez: "Non, l'hiver!"
Je vois toujours la valeur p comme un indicateur d'une anomalie: une observation extrême improbable (combien improbable, cela est indiqué par la valeur p).
Tous les écarts entre la théorie nulle et l'observation ne sont pas un indicateur fort d'incompatibilité avec le nul. En raison du bruit ou d'autres variations de mesure, il faut s'attendre à un certain écart et il est probable que l'observation se situe dans une certaine plage.
Cependant, des écarts importants en dehors de la plage probable sont inattendus. De telles divergences indiquent que la théorie nulle pourrait être incorrecte. Plus l'écart est inattendu (plus la valeur p est faible), plus il indique que la théorie nulle est incompatible avec les observations.
Lors du test d'une théorie, en examinant une divergence entre la théorie et l'observation, nous ne nous intéressons généralement qu'aux divergences hautement improbables.
À proprement parler, toute valeur p est une preuve de la$H_0$ contre. $H_1$question. Cela se résume généralement à la prise de décision: devez-vous agir (ou planifier vos actes futurs) en supposant que$H_0$ est vrai, ou devriez-vous tenir $H_1$Pour de vrai? Dans un domaine empirique, vous ne pouvez jamais savoir avec une certitude absolue, mais vous devez quand même prendre une décision.
Maintenant, c'est une question différente de savoir si la probabilité en elle-même est le bon critère pour prendre cette décision, mais supposons que c'est le cas. Puis, en définissant$\alpha$à une certaine valeur (généralement 0,05), vous établissez essentiellement une frontière de décision: si la valeur p est inférieure à elle, vous décidez d'agir comme si$H_1$étaient vrais, car il est suffisamment improbable (bien que toujours possible) d'obtenir une valeur aussi extrême de$T$ si $H_0$ avaient raison.
Par exemple:
Supposons que vous ayez commandé 1 million de 1 k$\Omega$résistances d'un fabricant de composants électroniques. En raison du processus de fabrication, aucune résistance ne mesure exactement 1 k$\Omega$, donc la vraie résistance est une distribution aléatoire autour de cette valeur. Vous n'avez pas les ressources pour vérifier chaque résistance vous-même, mais vous pouvez prélever un échantillon, mesurer la résistance et faire les statistiques.
Si vous obtenez une valeur p suffisamment grande ,$p \gt \alpha$, tu peux dire:
En supposant que la vraie résistance de la population est de 1$k\Omega$, il est raisonnablement probable de prélever un échantillon aléatoire dont la résistance moyenne s'écarte au moins autant que celle mesurée par rapport à cette valeur idéale. J'accepterai l'envoi et intégrerai les résistances dans mon produit.
Cela échoue à rejeter $H_0$. D'un autre côté, si votre valeur p est inférieure à votre$\alpha$, votre raisonnement est le suivant:
En supposant que la vraie résistance de la population est de 1$k\Omega$, il est très improbable de prendre un échantillon aléatoire dont la résistance moyenne s'écarte au moins autant que mesurée par rapport à cette valeur idéale. Par conséquent, la vraie résistance n'est probablement pas 1$k\Omega$. Je rejetterai l'envoi, poursuivrai le fabricant, je chercherai un plus fiable ou autre, mais je n'utiliserai pas ces résistances dans mon produit, car cela ne fonctionnera pas correctement avec des composants mal dimensionnés.
C'est rejeter $H_0$ en faveur de $H_1$.