Pourquoi les cotes logarithmiques sont-elles modélisées comme une fonction linéaire?
Je pense avoir déjà la réponse, cependant, je souhaite une confirmation que je ne manque rien ici. Ce genre de demande la même chose, mais je veux revérifier.
La régression logistique peut être motivée par des modèles linéaires généralisés .
GLM, en substance, dit que nous modélisons la valeur attendue transformée («liée» pour ainsi dire) $\mu$ d'une variable $Y$des covariables / caractéristiques données sous forme de fonction linéaire. Appelons la fonction de lien$g()$. Dans le cas du modèle de régression linéaire classique, cette fonction serait simplement la fonction d'identité. Si$Y$ est binaire, la valeur attendue est égale à $p = P(Y = 1)$. Dans le modèle de régression logistique, nous modélisons les log-odds comme une fonction linéaire:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
L'hypothèse est donc que les log-odds sont correctement décrites par une fonction linéaire. Cependant, la fonction logit n'est clairement pas une fonction linéaire . Pourtant, il est raisonnablement approximé par une fonction linéaire si nous tronquons la plage de probabilité à quelque chose comme$0.05 < p < 0.95$.
Question: pourquoi modélisons-nous les log-odds comme une fonction linéaire alors qu'elle est non linéaire pour les petites et grandes probabilités?
Ma réponse serait que puisque nous nous intéressons à la valeur attendue, nous supposons (!) Que la gamme pertinente de probabilités que nous essayons d'estimer ne contient pas ces probabilités «extrêmes». Par conséquent, en substance, nous ignorons simplement la non-linéarité.
Correct?
Réponses
Un commentaire transformé en réponse:
Vous semblez confondre deux choses: (1) Le "logit" étant non linéaire dans $p$(2) en supposant que le logit de p est linéaire dans les covariables. Le premier point n'a aucun rapport avec le second point à moins que vous ne croyiez d'une manière ou d'une autre que les probabilités elles-mêmes devraient dépendre linéairement des covariables, ce qui est peut-être encore plus absurde étant donné que p doit rester dans [0,1].
La meilleure façon de voir pourquoi la régression logistique a du sens est d'essayer de modéliser la probabilité $p$ en tant que fonction de $x = (x_1\dots,x_{K})$. Vous réalisez rapidement que vous avez peut-être besoin d'une sorte de transformation qui limite les valeurs à$[0,1]$ et une réflexion pourrait conduire à un modèle comme $$ p = \phi(\beta^T x) $$ où $\phi(\cdot)$ est une fonction de $\mathbb R$ à $[0,1]$. Un exemple sera$\phi = \text{logit}^{-1}$ce qui conduit à une régression logistique. Un autre exemple est$\phi = $ CDF de la distribution normale standard qui conduit à la régression Probit, et ainsi de suite.
Vous pouvez toujours rendre le modèle plus complexe en supposant $p = \phi( P_\beta(x))$ où $P_\beta(x)$ est un polynôme en $x$ de degré supérieur à 1.
Le cas logit a également l'interprétation suivante: Soit l'observation binaire $Y$ avec densité (c.-à-d. PMF) $p(y) = p^{y} (1-p)^{1-y}$ pour $y \in \{0,1\}$. C'est une famille exponentielle$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ avec paramètre canonique / naturel $\theta = \log\frac{p}{1-p}$. La régression logistique suppose que ce paramètre canonique est linéaire dans les covariables.
Une considération similaire au point 1 ci-dessus concerne la modélisation d'un paramètre qui prend des valeurs dans $[0,\infty)$ comme un taux $\lambda$. Ensuite, encore une fois, un premier modèle naturel est$\lambda = \phi(\beta^T x)$ où $\phi(\cdot)$ Plans $\mathbb R$ à $[0,\infty)$ et un choix naturel pour $\phi$ est $\phi(x) = e^x$.