Perché le quote logaritmiche sono modellate come una funzione lineare?
Penso di avere già la risposta, però auguro qualche conferma che qui non mi manca nulla. Questo tipo di domanda chiede la stessa cosa, ma voglio ricontrollare.
La regressione logistica può essere motivata tramite modelli lineari generalizzati .
GLM, in sostanza, afferma che modelliamo il valore atteso trasformato ("collegato" per così dire) $\mu$ di una variabile $Y$date covariate / caratteristiche come funzione lineare. Chiamiamo la funzione link$g()$. Nel caso del modello di regressione lineare classico questa funzione sarebbe semplicemente la funzione di identità. Se$Y$ è binario, il valore atteso è uguale a $p = P(Y = 1)$. Nel modello di regressione logistica, modelliamo le log-odds come una funzione lineare:
$$ \log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1x_1 + \dots + \beta_Kx_K$$
Quindi l'ipotesi è che le probabilità logaritmiche siano adeguatamente descritte da una funzione lineare. La funzione logit, tuttavia, chiaramente non è una funzione lineare . Tuttavia, è ragionevolmente approssimato da una funzione lineare se tronciamo l'intervallo di probabilità a qualcosa di simile$0.05 < p < 0.95$.
Domanda: perché modelliamo le probabilità logaritmiche come una funzione lineare quando non è lineare per probabilità piccole e grandi?
La mia risposta sarebbe che poiché siamo interessati al valore atteso, assumiamo (!) Che l'intervallo di probabilità rilevante che stiamo cercando di stimare non contenga queste probabilità "estreme". Quindi, in sostanza, ignoriamo semplicemente la non linearità.
Corretta?
Risposte
Un commento si è trasformato in una risposta:
Sembri confondere due cose: (1) Il "logit" non è lineare $p$(2) assumendo che il logit di p sia lineare nelle covariate. Il primo punto non ha alcuna relazione con il secondo a meno che in qualche modo non si creda che le probabilità stesse debbano essere linearmente dipendenti dalle covariate, il che è forse ancora più assurdo considerando che p deve rimanere in [0,1].
Il modo migliore per capire perché la regressione logistica ha senso è provare a modellare la probabilità $p$ come una funzione di $x = (x_1\dots,x_{K})$. Ti rendi presto conto che forse hai bisogno di una sorta di trasformazione che limiti i valori a$[0,1]$ e qualche pensiero potrebbe portare a un modello come $$ p = \phi(\beta^T x) $$ dove $\phi(\cdot)$ è una funzione di $\mathbb R$ per $[0,1]$. Un esempio sarà$\phi = \text{logit}^{-1}$che porta alla regressione logistica. Un altro esempio è$\phi = $ CDF della distribuzione normale standard che porta alla regressione Probit e così via.
Puoi sempre rendere il modello più complesso supponendo $p = \phi( P_\beta(x))$ dove $P_\beta(x)$ è un polinomio in $x$ di grado superiore a 1.
Il caso logit ha anche la seguente interpretazione: sia l'osservazione binaria $Y$ con densità (cioè PMF) $p(y) = p^{y} (1-p)^{1-y}$ per $y \in \{0,1\}$. Questa è una famiglia esponenziale$$ p(y) = \exp( y \theta - \log(1 +e^{\theta})) $$ con parametro canonico / naturale $\theta = \log\frac{p}{1-p}$. La regressione logistica presuppone che questo parametro canonico sia lineare nelle covariate.
Una considerazione simile al punto 1 sopra va nella modellazione di un parametro che assume valori in $[0,\infty)$ come una tariffa $\lambda$. Quindi, di nuovo, un primo modello naturale è$\lambda = \phi(\beta^T x)$ dove $\phi(\cdot)$ mappe $\mathbb R$ per $[0,\infty)$ e una scelta naturale per $\phi$ è $\phi(x) = e^x$.