¿Por qué un pequeño$p$-value indica incompatibilidad con el nulo?
Tomemos, como un ejemplo simple, la prueba de hipótesis de una muestra de dos colas sobre la media de la población. Supongamos que hemos determinado un$\alpha$-nivel a priori.
Dejar$X_1, \dots, X_n \overset{\text{iid}}{\sim}\mathcal{N}(\mu, \sigma^2)$. En este escenario, dado un valor$\mu_0$, tenemos las hipótesis nula y alternativa$H_0: \mu = \mu_0$y$H_1: \mu \neq \mu_0$.
Dejar$\bar{X}_n$Sea la media muestral de$X_1, \dots, X_n$y$S^2$Sea el estimador insesgado de$\sigma^2$, con$\bar{x}_n$y$s^2$siendo los valores observados.
Lo sabemos$$\dfrac{\bar{X}_n - \mu}{\sqrt{S^2/n}} \sim t_{n-1}$$es decir, un$t$-distribución con$n-1$grados de libertad. Por debajo$H_0$, tenemos eso$$\dfrac{\bar{X}_n - \mu_0}{\sqrt{S^2/n}} \sim t_{n-1}\text{.}$$Entonces calculamos un$p$-valor$$p = \mathbb{P}\left(|T| \geq \dfrac{\bar{x}_n - \mu_0}{\sqrt{s^2/n}} \right)$$dónde$T \sim t_{n-1}$y si$p < \alpha$, rechazamos$H_0$y afirmar que hay pruebas de$H_1$.
Ahora, he hecho este procedimiento durante años, y me da un poco de vergüenza preguntar esto, dado que tengo una maestría: pero exactamente ¿por qué tener$p < \alpha$indicar incompatibilidad con$H_0$y evidencia de$H_1$? Matemáticamente, todo lo que queda al final del día es la probabilidad de que su variable aleatoria$T$toma un valor al menos tan extremo (en valor absoluto) como el arrojado por la muestra. Pero no veo por qué tener$p < \alpha$indica que tenemos evidencia para rechazar$H_0$.
Quizás esto haya sido cubierto en Casella y Berger y he olvidado los detalles.
Respuestas
Usemos una analogía.
Te despiertas confundido acerca de qué día es. Peor aún, ni siquiera sabes el mes, aunque tienes el presentimiento de que podría ser verano, pero quieres que sea invierno (así que$H_0: \text{summer}$y$H_a: \text{winter}$). No confías en el calendario de tu teléfono, pero confías en la aplicación meteorológica, así que revisas la temperatura.
Verá que la aplicación meteorológica informa la temperatura como$-24^{\circ} C$.
Usted sabe que es muy poco probable que tenga tanto o más frío durante el verano, por lo que rechaza la idea de que es verano y concluye que es invierno.
En esta analogía, el valor crítico que da suficientemente pequeño$p <\alpha$es la temperatura a la que dudaría tanto de su corazonada de que es verano que concluiría: "¡No, es invierno!"
Siempre veo el valor p como un indicador de una anomalía: una observación extrema improbable (cuán improbable, eso lo indica el valor p).
No todas las discrepancias entre la teoría nula y la observación son un fuerte indicador de incompatibilidad con la nula. Debido al ruido u otras variaciones de medición, es de esperar alguna discrepancia y es probable que se obtenga una observación dentro de algún rango.
Sin embargo, grandes discrepancias fuera del rango probable son inesperadas. Tales discrepancias son un indicador de que la teoría nula podría ser incorrecta. Cuanto más inesperada sea la discrepancia (cuanto menor sea el valor p), más fuerte indica que la teoría nula es incompatible con las observaciones.
Al probar una teoría, al observar una discrepancia entre la teoría y la observación, normalmente solo nos interesan las discrepancias muy poco probables.
Estrictamente hablando, cualquier valor p es alguna evidencia con respecto a la$H_0$contra$H_1$pregunta. Por lo general, se reduce a la toma de decisiones: ¿Debe actuar (o planificar sus actos futuros) asumiendo que$H_0$es verdad, o deberías sostener$H_1$¿de verdad? En un campo empírico nunca se puede saber con absoluta certeza, pero aún así, tienes que tomar la decisión de alguna manera.
Ahora, es una pregunta diferente si la probabilidad por sí misma es el criterio correcto para tomar esa decisión, pero supongamos que lo es. Luego, al establecer$\alpha$a algún valor (generalmente 0.05) básicamente está estableciendo un límite de decisión: si el valor p está por debajo de él, decide actuar como si$H_1$fueran ciertas, porque es suficientemente improbable (aunque aún posible) obtener un valor tan extremo de$T$si$H_0$tenían razón.
Por ejemplo:
Suponga que ha pedido 1 millón de 1 k$\Omega$resistencias de un fabricante de componentes electrónicos. Debido al proceso de fabricación, ninguna resistencia es exactamente de 1 k$\Omega$, por lo que la verdadera resistencia es una distribución aleatoria alrededor de ese valor. No tiene los recursos para verificar cada resistencia usted mismo, pero puede tomar una muestra, medir la resistencia y hacer las estadísticas.
Si obtiene un valor p suficientemente grande,$p \gt \alpha$, puedes decir:
Suponiendo que la verdadera resistencia en la población es 1$k\Omega$, es razonablemente probable extraer una muestra aleatoria cuya resistencia promedio se desvíe al menos tanto como se midió de ese valor ideal. Aceptaré el envío y construiré las resistencias en mi producto.
Esto es fallar en rechazar $H_0$. Por otro lado, si su valor p está por debajo de su$\alpha$, tu razonamiento es el siguiente:
Suponiendo que la verdadera resistencia en la población es 1$k\Omega$, es muy improbable tomar una muestra aleatoria cuya resistencia promedio se desvíe al menos tanto como se midió de ese valor ideal. Por lo tanto, la verdadera resistencia probablemente no sea 1$k\Omega$. Rechazaré el envío, demandaré al fabricante, buscaré uno más confiable o lo que sea, pero no usaré estas resistencias en mi producto, porque no va a funcionar correctamente con componentes mal dimensionados.
esto es rechazar $H_0$en favor de$H_1$.