¿Por qué las probabilidades logarítmicas se modelan como una función lineal?
Creo que ya tengo la respuesta, sin embargo, deseo alguna confirmación de que no me falta nada aquí. Este tipo de pregunta lo mismo, pero quiero volver a verificar.
La regresión logística se puede motivar a través de modelos lineales generalizados .
GLM, en esencia, dice que modelamos el valor esperado transformado ("vinculado" por así decirlo) $\mu$ de una variable $Y$dadas covariables / características como una función lineal. Llamemos a la función de enlace$g()$. En el caso del modelo de regresión lineal clásico, esta función sería simplemente la función de identidad. Si$Y$ es binario, el valor esperado es igual a $p = P(Y = 1)$. En el modelo de regresión logística, modelamos las probabilidades logarítmicas como una función lineal:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
Entonces, la suposición es que las probabilidades logarítmicas se describen adecuadamente mediante una función lineal. Sin embargo, la función logit claramente no es una función lineal . Sin embargo, se aproxima razonablemente mediante una función lineal si truncamos el rango de probabilidad a algo como$0.05 < p < 0.95$.
Pregunta: ¿por qué modelamos las probabilidades logarítmicas como una función lineal cuando no es lineal para probabilidades pequeñas y grandes?
Mi respuesta sería que dado que estamos interesados en el valor esperado, asumimos (!) Que el rango relevante de probabilidades que estamos tratando de estimar no contiene estas probabilidades “extremas”. Por lo tanto, en esencia, simplemente ignoramos la no linealidad.
¿Correcto?
Respuestas
Un comentario convertido en respuesta:
Parece confundir dos cosas: (1) El "logit" no es lineal en $p$(2) suponiendo que el logit de p es lineal en las covariables. El primer punto no tiene relación con el segundo, a menos que de alguna manera crea que las probabilidades en sí deberían ser linealmente dependientes de las covariables, lo cual es quizás aún más absurdo considerando que p tiene que permanecer en [0,1].
La mejor manera de ver por qué la regresión logística tiene sentido es intentar modelar la probabilidad $p$ como una función de $x = (x_1\dots,x_{K})$. Rápidamente se da cuenta de que tal vez necesite algún tipo de transformación que restrinja los valores a$[0,1]$ y algún pensamiento podría llevar a un modelo como $$ p = \phi(\beta^T x) $$ dónde $\phi(\cdot)$ es una función de $\mathbb R$ a $[0,1]$. Un ejemplo será$\phi = \text{logit}^{-1}$lo que conduce a una regresión logística. Otro ejemplo es$\phi = $ CDF de la distribución normal estándar que conduce a la regresión Probit, y así sucesivamente.
Siempre puede hacer que el modelo sea más complejo suponiendo $p = \phi( P_\beta(x))$ dónde $P_\beta(x)$ es un polinomio en $x$ de grado superior a 1.
El caso logit también tiene la siguiente interpretación: Sea la observación binaria $Y$ con densidad (es decir, PMF) $p(y) = p^{y} (1-p)^{1-y}$ para $y \in \{0,1\}$. Esta es una familia exponencial$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ con parámetro canónico / natural $\theta = \log\frac{p}{1-p}$. La regresión logística asume que este parámetro canónico es lineal en las covariables.
Una consideración similar a la del punto 1 anterior entra en el modelado de un parámetro que toma valores en $[0,\infty)$ como una tasa $\lambda$. Entonces, nuevamente, un primer modelo natural es$\lambda = \phi(\beta^T x)$ dónde $\phi(\cdot)$ mapas $\mathbb R$ a $[0,\infty)$ y una elección natural para $\phi$ es $\phi(x) = e^x$.