Polinomi in un modello di regressione (modello gerarchico bayesiano)
Non sono uno statistico qualificato e sto cercando di ottenere alcuni chiarimenti su un modello dalla letteratura. Lo studio in questione è " A Hierarchical Framework for Correcting Under-Reporting in Count Data . Il modello definito dalle equazioni da 11 a 14 (con pedici, termini non rilevanti rimossi per una più facile interpretazione):$$ \begin{align} z_{t} \mid y_{t} &\sim \operatorname{Binomial}\left(\pi, y_t \right) \\ \log \left(\frac{\pi}{1-\pi}\right)&=\beta_{0}+g\left(u\right) \\ y_{t} &\sim \operatorname{Poisson}\left(\lambda_{t}\right) \\ \log \left(\lambda_{t}\right) &=\log \left(P_{t, s}\right)+a_{0}+f_{1}\left(x_{s}^{(1)}\right)+f_{2}\left(x_{s}^{(2)}\right) \\ &+f_{3}\left(x_{s}^{(3)}\right)+f_{4}\left(x_{s}^{(4)}\right) \end{align} $$
dove $z_t$ sono conteggi osservati e $y_t$sono veri, veri conteggi. E le funzioni$g, f_1, \ldots, f_4(\cdot)$ sono (dalla carta)
polinomi ortogonali di gradi 3,2,2,2, rispetto ai polinomi grezzi, questi riducono la collinearità multipla tra i termini monomiali (Kennedy e Gentle 1980), e sono stati impostati utilizzando la funzione "poly" in R
Dalla mia comprensione, questo modello stima innanzitutto il conteggio reale $y_t$. Il conteggio vero stesso dipende da una formula di regressione logistica in cui le covariate sono la popolazione e indicatori sociali come$x_s^{(1)} = $disoccupazione. Le covariate vengono utilizzate come input per le funzioni ortogonali . Una volta stimato il conteggio reale, utilizza quel valore in un modello binomiale per contare il numero di "successi", ovvero il conteggio osservato. La probabilità di successo in questo caso è data da un'altra formula di regressione che ha anche una funzione ortogonale per la covariata.
Le mie domande sono piuttosto semplici:
Che cosa è così importante nell'utilizzo di funzioni ortogonali nei modelli di regressione. Perché non è possibile utilizzare coefficienti semplici (e questi coefficienti stimati nell'implementazione bayesiana).
L'interpretazione del
log
di$\pi$ e $\lambda$. Per$\pi$, Immagino, la formula di regressione può valutare numeri al di fuori di (0, 1), quindi ilogit lo trasformerà tra 0, 1. Non capisco perché il log stia prendendo per $\lambda$.
Risposte
Gestiamo 2. prima.
Come hai intuito, la trasformazione logit di $\pi$è progettato in modo che la formula di regressione non abbia restrizioni sui suoi valori; qualsiasi valore verrà mappato$(0,1)$. Lo stesso vale per la trasformazione logaritmica di$\lambda$: $\lambda$ deve essere positivo e l'utilizzo della trasformazione logaritmica consente alla formula di regressione di assumere qualsiasi valore, positivo o negativo.
La parte logaritmica di entrambe le trasformazioni significa anche che otteniamo un modello moltiplicativo piuttosto che un additivo, che spesso ha più senso per conteggi e proporzioni.
E, oltre a tutto ciò, ci sono ragioni matematiche per cui queste trasformazioni per queste particolari distribuzioni portano a calcoli leggermente più ordinati e sono i valori predefiniti, anche se non dovrebbe essere una ragione molto importante.
Passiamo ora alle funzioni ortogonali. Questi non stanno dicendo$f_1$ è ortogonale a $f_2$; sta ai dati decidere. Lo stanno dicendo$f_1$ è un polinomio quadratico in $x^{(1)}$e che è implementato come somma ponderata di termini ortogonali anziché come somma ponderata di $x$, $x^2$. Ciò che i polinomi ortogonali sono effettivamente dipende dai dati, ma facciamo finta che i dati siano equamente distanziati$[-1,1]$ e sono i polinomi di Chebyshev $T_0(x)=1,\, T_1(x)=x,\, T_2(x)=2x^2-1,\, T_3(x)=4x^3-3x$.
Se stessimo solo facendo la massima probabilità, questo non avrebbe alcuna importanza. Supponiamo che la stima ML basata sulle potenze di$x$ era $-0.1+2.7x-3x^2+4.5x^3$. Possiamo riscriverlo in termini di polinomi ortogonali: chiaramente il coefficiente di$T_3$ deve essere 4,5 / 4 per rendere il file $x^3$partita, e il resto richiederà il calcolo. Si scopre che lo è$-1.6T_0+6.075T_1-1.5T_2+1.125T_3$. Questi sono lo stesso polinomio , è solo un modo diverso di scrivere lo stesso modello, e in questo caso (e quasi sempre con i computer moderni) la collinearità non è abbastanza forte da causare problemi di arrotondamento numerico.
Con l'inferenza bayesiana, però, c'è la questione dei priori. Ha più senso mettere a priori indipendenti ($\alpha_j$ e $\beta_k$ nell'articolo) sui coefficienti dei polinomi ortogonali piuttosto che mettere a priori indipendenti sui coefficienti di $x$, $x^2$, $x^3$. Quindi, la mia ipotesi è che i polinomi ortogonali siano stati scelti in modo che il relativamente piatto ($N(0,10^2)$) a priori indipendenti sui loro coefficienti avevano senso.