로그 확률이 ​​선형 함수로 모델링되는 이유는 무엇입니까?

Jan 04 2021

나는 이미 답을 알고 있다고 생각하지만 여기에서 아무것도 놓치고 있지 않다는 확인을 바랍니다. 이런 종류의 질문은 똑같지 만 다시 확인하고 싶습니다.


로지스틱 회귀는 일반화 된 선형 모델을 통해 동기를 부여 할 수 있습니다 .

본질적으로 GLM은 변환 된 (즉, "연결된") 예상 값을 모델링한다고 말합니다. $\mu$ 변수의 $Y$공변량 / 특성을 선형 함수로 제공합니다. 링크 함수를 호출합시다$g()$. 고전적인 선형 회귀 모델의 경우이 함수는 단순히 항등 함수일 것입니다. 만약$Y$ 이진, 예상 값은 다음과 같습니다. $p = P(Y = 1)$. 로지스틱 회귀 모델에서 로그 확률 을 선형 함수로 모델링합니다 .

$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$

따라서 가정은 로그 확률이 ​​선형 함수에 의해 적절하게 설명된다는 것입니다. 그러나 로짓 함수는 분명히 선형 함수가 아닙니다 . 그러나 확률 범위를 다음과 같이 자르면 선형 함수에 의해 합리적으로 근사됩니다.$0.05 < p < 0.95$.

질문 : 크고 작은 확률에 대해 비선형 일 때 로그 확률을 선형 함수로 모델링하는 이유는 무엇입니까?

내 대답은 우리가 기대 값에 관심이 있기 때문에 추정하려는 확률의 관련 범위에 이러한 "극단적 인"확률이 포함되어 있지 않다고 가정 (!)하는 것입니다. 따라서 본질적으로 우리는 비선형 성을 무시합니다.

옳은?

답변

2 passerby51 Jan 05 2021 at 00:57

댓글이 답으로 바뀌 었습니다.

두 가지를 혼동하는 것 같습니다. (1) "logit"이 $p$(2) p의 로짓이 공변량에서 선형이라고 가정합니다. 확률 자체가 공변량에 선형 적으로 의존해야한다고 믿지 않는 한 첫 번째 점은 두 번째 점과 관련이 없습니다. p가 [0,1]에 남아 있어야한다는 점을 고려하면 훨씬 더 어리석은 일입니다.

  • 로지스틱 회귀가 의미있는 이유를 확인하는 가장 좋은 방법은 확률을 모델링하는 것입니다. $p$ 의 기능으로 $x = (x_1\dots,x_{K})$. 값을 다음과 같이 제한하는 일종의 변환이 필요할 수 있음을 금방 깨닫게됩니다.$[0,1]$ 그리고 어떤 생각은 다음과 같은 모델로 이어질 수 있습니다. $$ p = \phi(\beta^T x) $$ 어디 $\phi(\cdot)$ 의 기능입니다 $\mathbb R$ ...에 $[0,1]$. 한 가지 예는$\phi = \text{logit}^{-1}$로지스틱 회귀로 이어집니다. 또 다른 예는$\phi = $ Probit 회귀 등으로 이어지는 표준 정규 분포의 CDF.

  • 다음과 같이 가정하면 항상 모델을 더 복잡하게 만들 수 있습니다. $p = \phi( P_\beta(x))$ 어디 $P_\beta(x)$ 다항식 $x$ 1보다 높은 정도입니다.

  • 로짓 케이스는 또한 다음과 같은 해석을 가지고 있습니다. $Y$ 밀도 (즉, PMF) $p(y) = p^{y} (1-p)^{1-y}$ ...에 대한 $y \in \{0,1\}$. 이것은 지수 가족입니다$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ 표준 / 자연 매개 변수 사용 $\theta = \log\frac{p}{1-p}$. 로지스틱 회귀에서는이 표준 모수가 공변량에서 선형이라고 가정합니다.

  • 위의 포인트 1과 유사한 고려 사항은 값을 취하는 매개 변수를 모델링하는 데 사용됩니다. $[0,\infty)$ 요율과 같은 $\lambda$. 그런 다음 다시 자연스러운 첫 번째 모델은$\lambda = \phi(\beta^T x)$ 어디 $\phi(\cdot)$ 지도 $\mathbb R$ ...에 $[0,\infty)$ 그리고 자연스러운 선택 $\phi$ 이다 $\phi(x) = e^x$.