Dlaczego dziennik kursów modeluje się jako funkcję liniową?

Jan 04 2021

Myślę, że już mam odpowiedź, jednak życzę sobie potwierdzenia, że ​​niczego mi tu nie brakuje. Ten rodzaj wymaga tego samego, ale chcę jeszcze raz sprawdzić.


Regresję logistyczną można motywować za pomocą uogólnionych modeli liniowych .

GLM zasadniczo mówi, że modelujemy przekształconą („połączoną”, że tak powiem) wartość oczekiwaną $\mu$ zmiennej $Y$dane zmienne towarzyszące / cechy jako funkcja liniowa. Nazwijmy funkcję łączenia$g()$. W przypadku klasycznego modelu regresji liniowej funkcja ta byłaby po prostu funkcją tożsamości. Jeśli$Y$ jest binarna, oczekiwana wartość jest równa $p = P(Y = 1)$. W modelu regresji logistycznej modelujemy logarytmiczne szanse jako funkcję liniową:

$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$

Zatem założenie jest takie, że logarytmiczne szanse są odpowiednio opisane funkcją liniową. Jednak funkcja logit oczywiście nie jest funkcją liniową . Jednak jest to rozsądnie przybliżone przez funkcję liniową, jeśli skrócimy zakres prawdopodobieństwa do czegoś podobnego$0.05 < p < 0.95$.

Pytanie: dlaczego modelujemy logarytmiczne szanse jako funkcję liniową, gdy jest ona nieliniowa dla małych i dużych prawdopodobieństw?

Moja odpowiedź byłaby taka, że ​​skoro interesuje nas wartość oczekiwana, zakładamy (!), Że odpowiedni zakres prawdopodobieństw, które próbujemy oszacować, nie zawiera tych „ekstremalnych” prawdopodobieństw. Dlatego w istocie po prostu ignorujemy nieliniowość.

Poprawny?

Odpowiedzi

2 passerby51 Jan 05 2021 at 00:57

Komentarz zamienił się w odpowiedź:

Wydaje się, że mylisz dwie rzeczy: (1) „logit” jest nieliniowy $p$(2) przy założeniu, że logit p jest liniowy we zmiennych towarzyszących. Pierwszy punkt nie ma związku z drugim punktem, chyba że w jakiś sposób uważasz, że same prawdopodobieństwa powinny być liniowo zależne od zmiennych towarzyszących, co jest być może nawet bardziej absurdalne, biorąc pod uwagę, że p musi pozostać w [0,1].

  • Najlepszym sposobem, aby zobaczyć, dlaczego regresja logistyczna ma sens, jest próba modelowania prawdopodobieństwa $p$ jako funkcja $x = (x_1\dots,x_{K})$. Szybko zdajesz sobie sprawę, że być może potrzebujesz jakiejś transformacji, która ogranicza wartości do$[0,1]$ i pewna myśl może prowadzić do takiego modelu $$ p = \phi(\beta^T x) $$ gdzie $\phi(\cdot)$ jest funkcją z $\mathbb R$ do $[0,1]$. Jednym z przykładów będzie$\phi = \text{logit}^{-1}$co prowadzi do regresji logistycznej. Innym przykładem jest$\phi = $ CDF standardowego rozkładu normalnego, który prowadzi do regresji Probita i tak dalej.

  • Zawsze możesz uczynić model bardziej złożonym, powiedzmy zakładając $p = \phi( P_\beta(x))$ gdzie $P_\beta(x)$ jest wielomianem w $x$ stopnia wyższego niż 1.

  • Przypadek logit ma również następującą interpretację: Niech będzie obserwacja binarna $Y$ z gęstością (czyli PMF) $p(y) = p^{y} (1-p)^{1-y}$ dla $y \in \{0,1\}$. To jest wykładnicza rodzina$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ z parametrem kanonicznym / naturalnym $\theta = \log\frac{p}{1-p}$. Regresja logistyczna zakłada, że ​​ten parametr kanoniczny jest liniowy we zmiennych towarzyszących.

  • Podobna uwaga, jak w punkcie 1 powyżej, dotyczy modelowania parametru, który przyjmuje wartości w $[0,\infty)$ takie jak stawka $\lambda$. Z drugiej strony, naturalny pierwszy model jest$\lambda = \phi(\beta^T x)$ gdzie $\phi(\cdot)$ mapy $\mathbb R$ do $[0,\infty)$ i naturalny wybór dla $\phi$ jest $\phi(x) = e^x$.