Dlaczego dziennik kursów modeluje się jako funkcję liniową?
Myślę, że już mam odpowiedź, jednak życzę sobie potwierdzenia, że niczego mi tu nie brakuje. Ten rodzaj wymaga tego samego, ale chcę jeszcze raz sprawdzić.
Regresję logistyczną można motywować za pomocą uogólnionych modeli liniowych .
GLM zasadniczo mówi, że modelujemy przekształconą („połączoną”, że tak powiem) wartość oczekiwaną $\mu$ zmiennej $Y$dane zmienne towarzyszące / cechy jako funkcja liniowa. Nazwijmy funkcję łączenia$g()$. W przypadku klasycznego modelu regresji liniowej funkcja ta byłaby po prostu funkcją tożsamości. Jeśli$Y$ jest binarna, oczekiwana wartość jest równa $p = P(Y = 1)$. W modelu regresji logistycznej modelujemy logarytmiczne szanse jako funkcję liniową:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
Zatem założenie jest takie, że logarytmiczne szanse są odpowiednio opisane funkcją liniową. Jednak funkcja logit oczywiście nie jest funkcją liniową . Jednak jest to rozsądnie przybliżone przez funkcję liniową, jeśli skrócimy zakres prawdopodobieństwa do czegoś podobnego$0.05 < p < 0.95$.
Pytanie: dlaczego modelujemy logarytmiczne szanse jako funkcję liniową, gdy jest ona nieliniowa dla małych i dużych prawdopodobieństw?
Moja odpowiedź byłaby taka, że skoro interesuje nas wartość oczekiwana, zakładamy (!), Że odpowiedni zakres prawdopodobieństw, które próbujemy oszacować, nie zawiera tych „ekstremalnych” prawdopodobieństw. Dlatego w istocie po prostu ignorujemy nieliniowość.
Poprawny?
Odpowiedzi
Komentarz zamienił się w odpowiedź:
Wydaje się, że mylisz dwie rzeczy: (1) „logit” jest nieliniowy $p$(2) przy założeniu, że logit p jest liniowy we zmiennych towarzyszących. Pierwszy punkt nie ma związku z drugim punktem, chyba że w jakiś sposób uważasz, że same prawdopodobieństwa powinny być liniowo zależne od zmiennych towarzyszących, co jest być może nawet bardziej absurdalne, biorąc pod uwagę, że p musi pozostać w [0,1].
Najlepszym sposobem, aby zobaczyć, dlaczego regresja logistyczna ma sens, jest próba modelowania prawdopodobieństwa $p$ jako funkcja $x = (x_1\dots,x_{K})$. Szybko zdajesz sobie sprawę, że być może potrzebujesz jakiejś transformacji, która ogranicza wartości do$[0,1]$ i pewna myśl może prowadzić do takiego modelu $$ p = \phi(\beta^T x) $$ gdzie $\phi(\cdot)$ jest funkcją z $\mathbb R$ do $[0,1]$. Jednym z przykładów będzie$\phi = \text{logit}^{-1}$co prowadzi do regresji logistycznej. Innym przykładem jest$\phi = $ CDF standardowego rozkładu normalnego, który prowadzi do regresji Probita i tak dalej.
Zawsze możesz uczynić model bardziej złożonym, powiedzmy zakładając $p = \phi( P_\beta(x))$ gdzie $P_\beta(x)$ jest wielomianem w $x$ stopnia wyższego niż 1.
Przypadek logit ma również następującą interpretację: Niech będzie obserwacja binarna $Y$ z gęstością (czyli PMF) $p(y) = p^{y} (1-p)^{1-y}$ dla $y \in \{0,1\}$. To jest wykładnicza rodzina$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ z parametrem kanonicznym / naturalnym $\theta = \log\frac{p}{1-p}$. Regresja logistyczna zakłada, że ten parametr kanoniczny jest liniowy we zmiennych towarzyszących.
Podobna uwaga, jak w punkcie 1 powyżej, dotyczy modelowania parametru, który przyjmuje wartości w $[0,\infty)$ takie jak stawka $\lambda$. Z drugiej strony, naturalny pierwszy model jest$\lambda = \phi(\beta^T x)$ gdzie $\phi(\cdot)$ mapy $\mathbb R$ do $[0,\infty)$ i naturalny wybór dla $\phi$ jest $\phi(x) = e^x$.