로그 확률이 선형 함수로 모델링되는 이유는 무엇입니까?
나는 이미 답을 알고 있다고 생각하지만 여기에서 아무것도 놓치고 있지 않다는 확인을 바랍니다. 이런 종류의 질문은 똑같지 만 다시 확인하고 싶습니다.
로지스틱 회귀는 일반화 된 선형 모델을 통해 동기를 부여 할 수 있습니다 .
본질적으로 GLM은 변환 된 (즉, "연결된") 예상 값을 모델링한다고 말합니다. $\mu$ 변수의 $Y$공변량 / 특성을 선형 함수로 제공합니다. 링크 함수를 호출합시다$g()$. 고전적인 선형 회귀 모델의 경우이 함수는 단순히 항등 함수일 것입니다. 만약$Y$ 이진, 예상 값은 다음과 같습니다. $p = P(Y = 1)$. 로지스틱 회귀 모델에서 로그 확률 을 선형 함수로 모델링합니다 .
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
따라서 가정은 로그 확률이 선형 함수에 의해 적절하게 설명된다는 것입니다. 그러나 로짓 함수는 분명히 선형 함수가 아닙니다 . 그러나 확률 범위를 다음과 같이 자르면 선형 함수에 의해 합리적으로 근사됩니다.$0.05 < p < 0.95$.
질문 : 크고 작은 확률에 대해 비선형 일 때 로그 확률을 선형 함수로 모델링하는 이유는 무엇입니까?
내 대답은 우리가 기대 값에 관심이 있기 때문에 추정하려는 확률의 관련 범위에 이러한 "극단적 인"확률이 포함되어 있지 않다고 가정 (!)하는 것입니다. 따라서 본질적으로 우리는 비선형 성을 무시합니다.
옳은?
답변
댓글이 답으로 바뀌 었습니다.
두 가지를 혼동하는 것 같습니다. (1) "logit"이 $p$(2) p의 로짓이 공변량에서 선형이라고 가정합니다. 확률 자체가 공변량에 선형 적으로 의존해야한다고 믿지 않는 한 첫 번째 점은 두 번째 점과 관련이 없습니다. p가 [0,1]에 남아 있어야한다는 점을 고려하면 훨씬 더 어리석은 일입니다.
로지스틱 회귀가 의미있는 이유를 확인하는 가장 좋은 방법은 확률을 모델링하는 것입니다. $p$ 의 기능으로 $x = (x_1\dots,x_{K})$. 값을 다음과 같이 제한하는 일종의 변환이 필요할 수 있음을 금방 깨닫게됩니다.$[0,1]$ 그리고 어떤 생각은 다음과 같은 모델로 이어질 수 있습니다. $$ p = \phi(\beta^T x) $$ 어디 $\phi(\cdot)$ 의 기능입니다 $\mathbb R$ ...에 $[0,1]$. 한 가지 예는$\phi = \text{logit}^{-1}$로지스틱 회귀로 이어집니다. 또 다른 예는$\phi = $ Probit 회귀 등으로 이어지는 표준 정규 분포의 CDF.
다음과 같이 가정하면 항상 모델을 더 복잡하게 만들 수 있습니다. $p = \phi( P_\beta(x))$ 어디 $P_\beta(x)$ 다항식 $x$ 1보다 높은 정도입니다.
로짓 케이스는 또한 다음과 같은 해석을 가지고 있습니다. $Y$ 밀도 (즉, PMF) $p(y) = p^{y} (1-p)^{1-y}$ ...에 대한 $y \in \{0,1\}$. 이것은 지수 가족입니다$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ 표준 / 자연 매개 변수 사용 $\theta = \log\frac{p}{1-p}$. 로지스틱 회귀에서는이 표준 모수가 공변량에서 선형이라고 가정합니다.
위의 포인트 1과 유사한 고려 사항은 값을 취하는 매개 변수를 모델링하는 데 사용됩니다. $[0,\infty)$ 요율과 같은 $\lambda$. 그런 다음 다시 자연스러운 첫 번째 모델은$\lambda = \phi(\beta^T x)$ 어디 $\phi(\cdot)$ 지도 $\mathbb R$ ...에 $[0,\infty)$ 그리고 자연스러운 선택 $\phi$ 이다 $\phi(x) = e^x$.