Warum werden Log Odds als lineare Funktion modelliert?
Ich glaube, ich habe bereits die Antwort, aber ich wünsche mir eine Bestätigung, dass mir hier nichts fehlt. Diese Art von fragt das Gleiche, aber ich möchte es noch einmal überprüfen.
Die logistische Regression kann über verallgemeinerte lineare Modelle motiviert werden .
GLM sagt im Wesentlichen, dass wir den transformierten (sozusagen „verknüpften“) erwarteten Wert modellieren $\mu$ einer Variablen $Y$gegebene Kovariaten / Merkmale als lineare Funktion. Rufen wir die Link-Funktion auf$g()$. Im Fall des klassischen linearen Regressionsmodells wäre diese Funktion einfach die Identitätsfunktion. Wenn$Y$ ist binär, der erwartete Wert ist gleich $p = P(Y = 1)$. Im logistischen Regressionsmodell modellieren wir die logarithmischen Quoten als lineare Funktion:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
Die Annahme ist also, dass die Log-Quoten durch eine lineare Funktion angemessen beschrieben werden. Die Logit-Funktion ist jedoch eindeutig keine lineare Funktion . Es wird jedoch durch eine lineare Funktion vernünftigerweise angenähert, wenn wir den Wahrscheinlichkeitsbereich auf so etwas kürzen$0.05 < p < 0.95$.
Frage: Warum modellieren wir die Log-Odds als lineare Funktion, wenn sie für kleine und große Wahrscheinlichkeiten nichtlinear ist?
Meine Antwort wäre, dass wir (!) Da wir am erwarteten Wert interessiert sind, davon ausgehen, dass der relevante Bereich von Wahrscheinlichkeiten, den wir zu schätzen versuchen, diese „extremen“ Wahrscheinlichkeiten nicht enthält. Daher ignorieren wir im Wesentlichen einfach die Nichtlinearität.
Richtig?
Antworten
Aus einem Kommentar wurde eine Antwort:
Sie scheinen zwei Dinge zu verwirren: (1) Das "Logit" ist nichtlinear in $p$(2) unter der Annahme, dass das Logit von p in den Kovariaten linear ist. Der erste Punkt hat keinen Einfluss auf den zweiten Punkt, es sei denn, Sie glauben irgendwie, dass die Wahrscheinlichkeiten selbst linear von den Kovariaten abhängen sollten, was vielleicht noch absurder ist, wenn man bedenkt, dass p in [0,1] bleiben muss.
Der beste Weg, um herauszufinden, warum logistische Regression sinnvoll ist, besteht darin, die Wahrscheinlichkeit zu modellieren $p$ als Funktion von $x = (x_1\dots,x_{K})$. Sie erkennen schnell, dass Sie möglicherweise eine Art Transformation benötigen, die die Werte auf beschränkt$[0,1]$ und einige Gedanken könnten zu einem Modell wie führen $$ p = \phi(\beta^T x) $$ wo $\phi(\cdot)$ ist eine Funktion von $\mathbb R$ zu $[0,1]$. Ein Beispiel wird sein$\phi = \text{logit}^{-1}$was zu einer logistischen Regression führt. Ein anderes Beispiel ist$\phi = $ CDF der Standardnormalverteilung, die zur Probit-Regression führt, und so weiter.
Sie können das Modell jederzeit komplexer gestalten, indem Sie beispielsweise annehmen $p = \phi( P_\beta(x))$ wo $P_\beta(x)$ ist ein Polynom in $x$ Grad höher als 1.
Der logit-Fall hat auch die folgende Interpretation: Sei die binäre Beobachtung $Y$ mit Dichte (dh PMF) $p(y) = p^{y} (1-p)^{1-y}$ zum $y \in \{0,1\}$. Dies ist eine exponentielle Familie$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ mit kanonischen / natürlichen Parametern $\theta = \log\frac{p}{1-p}$. Die logistische Regression geht davon aus, dass dieser kanonische Parameter in den Kovariaten linear ist.
Eine ähnliche Überlegung wie unter Punkt 1 betrifft die Modellierung eines Parameters, der Werte in annimmt $[0,\infty)$ wie eine Rate $\lambda$. Andererseits ist ein natürliches erstes Modell$\lambda = \phi(\beta^T x)$ wo $\phi(\cdot)$ Karten $\mathbb R$ zu $[0,\infty)$ und eine natürliche Wahl für $\phi$ ist $\phi(x) = e^x$.