Почему логарифмические коэффициенты моделируются как линейная функция?
Я думаю, что у меня уже есть ответ, однако я хочу получить подтверждение того, что я здесь ничего не упускаю. Это вроде того же, но я хочу перепроверить.
Логистическая регрессия может быть мотивирована с помощью обобщенных линейных моделей .
GLM, по сути, говорит, что мы моделируем преобразованное (так сказать «связанное») ожидаемое значение $\mu$ переменной $Y$заданные ковариаты / характеристики как линейная функция. Назовем функцию ссылки$g()$. В случае классической модели линейной регрессии эта функция была бы просто функцией идентичности. Если$Y$ является двоичным, ожидаемое значение равно $p = P(Y = 1)$. В модели логистической регрессии мы моделируем логарифмические шансы как линейную функцию:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
Таким образом, предполагается, что логарифмические шансы адекватно описываются линейной функцией. Однако логит-функция явно не является линейной функцией . Тем не менее, его разумно аппроксимировать линейной функцией, если мы усечем диапазон вероятности до чего-то вроде$0.05 < p < 0.95$.
Вопрос: почему мы моделируем логарифмические шансы как линейную функцию, когда она нелинейна для малых и больших вероятностей?
Я отвечу так: поскольку нас интересует ожидаемое значение, мы предполагаем (!), Что соответствующий диапазон вероятностей, который мы пытаемся оценить, не содержит этих «крайних» вероятностей. Следовательно, по сути, мы просто игнорируем нелинейность.
Правильный?
Ответы
Комментарий превратился в ответ:
Вы, кажется, путаете две вещи: (1) "логит" нелинейен в $p$(2) в предположении, что логит p линейен по ковариатам. Первый пункт не имеет отношения ко второму, если вы каким-то образом не считаете, что сами вероятности должны линейно зависеть от ковариат, что, возможно, еще более абсурдно, учитывая, что p должно оставаться в [0,1].
Лучший способ понять, почему логистическая регрессия имеет смысл, - это попытаться смоделировать вероятность $p$ как функция $x = (x_1\dots,x_{K})$. Вы быстро понимаете, что, возможно, вам нужно какое-то преобразование, которое ограничивает значения до$[0,1]$ и некоторые мысли могут привести к такой модели, как $$ p = \phi(\beta^T x) $$ где $\phi(\cdot)$ это функция от $\mathbb R$ к $[0,1]$. Одним из примеров будет$\phi = \text{logit}^{-1}$что приводит к логистической регрессии. Другой пример$\phi = $ CDF стандартного нормального распределения, которое приводит к регрессии Пробита и т. Д.
Вы всегда можете усложнить модель, предположив $p = \phi( P_\beta(x))$ где $P_\beta(x)$ является многочленом от $x$ степени выше 1.
Логит-случай также имеет следующую интерпретацию: пусть двоичное наблюдение $Y$ с плотностью (т.е. PMF) $p(y) = p^{y} (1-p)^{1-y}$ для $y \in \{0,1\}$. Это экспоненциальная семья$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ с каноническим / естественным параметром $\theta = \log\frac{p}{1-p}$. Логистическая регрессия предполагает, что этот канонический параметр является линейным по ковариатам.
Рассмотрение, аналогичное пункту 1 выше, касается моделирования параметра, который принимает значения в $[0,\infty)$ например, ставка $\lambda$. Тогда, опять же, естественная первая модель$\lambda = \phi(\beta^T x)$ где $\phi(\cdot)$ карты $\mathbb R$ к $[0,\infty)$ и естественный выбор для $\phi$ является $\phi(x) = e^x$.