Por que as probabilidades de log são modeladas como uma função linear?

Jan 04 2021

Acho que já tenho a resposta, porém, desejo alguma confirmação de que não estou faltando nada aqui. Isso meio que pergunta a mesma coisa, mas quero verificar novamente.


A regressão logística pode ser motivada por meio de modelos lineares generalizados .

O GLM, em essência, diz que modelamos o valor esperado transformado ("vinculado", por assim dizer) $\mu$ de uma variável $Y$determinadas covariáveis ​​/ características como uma função linear. Vamos chamar a função de link$g()$. No caso do modelo de regressão linear clássico, essa função seria simplesmente a função de identidade. E se$Y$ é binário, o valor esperado é igual a $p = P(Y = 1)$. No modelo de regressão logística, modelamos o log-odds como uma função linear:

$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$

Portanto, a suposição é que as probabilidades logísticas são descritas de forma adequada por uma função linear. A função logit, no entanto, claramente não é uma função linear . No entanto, é razoavelmente aproximado por uma função linear se truncarmos o intervalo de probabilidade para algo como$0.05 < p < 0.95$.

Pergunta: por que modelamos o log-odds como uma função linear quando não é linear para pequenas e grandes probabilidades?

Minha resposta seria que, uma vez que estamos interessados ​​no valor esperado, supomos (!) Que a faixa relevante de probabilidades que estamos tentando estimar não contém essas probabilidades “extremas”. Portanto, em essência, simplesmente ignoramos a não linearidade.

Corrigir?

Respostas

2 passerby51 Jan 05 2021 at 00:57

Um comentário se transformou em uma resposta:

Você parece estar confundindo duas coisas: (1) O "logit" sendo não linear em $p$(2) assumindo que o logit de p é linear nas covariáveis. O primeiro ponto não tem relação com o segundo ponto, a menos que de alguma forma você acredite que as próprias probabilidades devam ser linearmente dependentes das covariáveis, o que talvez seja ainda mais absurdo considerando que p deve permanecer em [0,1].

  • A melhor maneira de ver por que a regressão logística faz sentido é tentar modelar a probabilidade $p$ como a função de $x = (x_1\dots,x_{K})$. Você rapidamente percebe que talvez precise de algum tipo de transformação que restrinja os valores a$[0,1]$ e algum pensamento pode levar a um modelo como $$ p = \phi(\beta^T x) $$ Onde $\phi(\cdot)$ é uma função de $\mathbb R$ para $[0,1]$. Um exemplo será$\phi = \text{logit}^{-1}$o que leva à regressão logística. Outro exemplo é$\phi = $ CDF da distribuição normal padrão que leva à regressão Probit e assim por diante.

  • Você sempre pode tornar o modelo mais complexo, supondo $p = \phi( P_\beta(x))$ Onde $P_\beta(x)$ é um polinômio em $x$ de grau superior a 1.

  • O caso logit também tem a seguinte interpretação: Seja a observação binária $Y$ com densidade (ou seja, PMF) $p(y) = p^{y} (1-p)^{1-y}$ para $y \in \{0,1\}$. Esta é uma família exponencial$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ com parâmetro canônico / natural $\theta = \log\frac{p}{1-p}$. A regressão logística assume que este parâmetro canônico é linear nas covariáveis.

  • Uma consideração semelhante ao ponto 1 acima entra na modelagem de um parâmetro que leva valores em $[0,\infty)$ como uma taxa $\lambda$. Então, novamente, um primeiro modelo natural é$\lambda = \phi(\beta^T x)$ Onde $\phi(\cdot)$ mapas $\mathbb R$ para $[0,\infty)$ e uma escolha natural para $\phi$ é $\phi(x) = e^x$.