Polynômes dans un modèle de régression (modèle hiérarchique bayésien)
Je ne suis pas un statisticien de formation et je cherche à obtenir des éclaircissements sur un modèle à partir de la littérature. L'étude en question est « Un cadre hiérarchique pour corriger la sous-déclaration dans les données de dénombrement . Le modèle tel que défini par les équations 11 à 14 (avec indices, termes non pertinents supprimés pour une interprétation plus facile):$$ \begin{align} z_{t} \mid y_{t} &\sim \operatorname{Binomial}\left(\pi, y_t \right) \\ \log \left(\frac{\pi}{1-\pi}\right)&=\beta_{0}+g\left(u\right) \\ y_{t} &\sim \operatorname{Poisson}\left(\lambda_{t}\right) \\ \log \left(\lambda_{t}\right) &=\log \left(P_{t, s}\right)+a_{0}+f_{1}\left(x_{s}^{(1)}\right)+f_{2}\left(x_{s}^{(2)}\right) \\ &+f_{3}\left(x_{s}^{(3)}\right)+f_{4}\left(x_{s}^{(4)}\right) \end{align} $$
où $z_t$ sont observés les comptes et $y_t$sont des comptes réels, vrais. Et les fonctions$g, f_1, \ldots, f_4(\cdot)$ sont (du papier)
polynômes orthogonaux de degrés 3,2,2,2, comparés aux polynômes bruts, ceux-ci réduisent la colinéarité multiple entre les termes monômes (Kennedy et Gentle 1980), et ont été mis en place en utilisant la fonction «poly» dans R
D'après ce que j'ai compris, ce modèle estime d'abord le nombre réel $y_t$. Le véritable décompte lui-même dépend d'une formule de régression logistique où les covariables sont la population et des indicateurs sociaux tels que$x_s^{(1)} = $chômage. Les covariables sont utilisées comme entrée pour les fonctions orthogonales . Une fois qu'il estime le nombre réel, il utilise cette valeur dans un modèle binomial pour compter le nombre de "succès", c'est-à-dire le nombre observé. La probabilité de succès dans ce cas est donnée par une autre formule de régression qui a également une fonction orthogonale pour la covariable.
Mes questions sont assez simples:
Ce qui est si important dans l'utilisation des fonctions orthogonales dans les modèles de régression. Pourquoi ne peut-on pas utiliser de simples coefficients (et ces coefficients estimés dans l'implémentation bayésienne).
L'interprétation de la
log
de$\pi$ et $\lambda$. Pour$\pi$, Je suppose que la formule de régression peut s'évaluer à des nombres en dehors de (0, 1), donc l'ilogit le transformera entre 0, 1. Je ne comprends pas pourquoi le journal prend pour $\lambda$.
Réponses
Traitons d'abord 2. d'abord.
Comme vous l'avez deviné, la transformation logit de $\pi$est conçu pour que la formule de régression n'ait aucune restriction sur ses valeurs; toute valeur sera mappée dans$(0,1)$. Il en va de même pour la transformation du journal de$\lambda$: $\lambda$ doit être positive et l'utilisation de la transformation log permet à la formule de régression de prendre n'importe quelle valeur, positive ou négative.
La partie logarithmique des deux transformations signifie également que nous obtenons un modèle multiplicatif plutôt qu'un additif, ce qui est souvent plus logique pour les nombres et les proportions.
Et, en plus de tout cela, il y a des raisons mathématiques pour lesquelles ces transformations pour ces distributions particulières conduisent à un calcul légèrement plus ordonné et sont les valeurs par défaut, bien que cela ne devrait pas être une raison très importante.
Passons maintenant aux fonctions orthogonales. Ils ne disent pas$f_1$ est orthogonal à $f_2$; c'est aux données de décider. Ils disent que$f_1$ est un polynôme quadratique en $x^{(1)}$, et qu'il est implémenté comme une somme pondérée de termes orthogonaux plutôt que comme une somme pondérée de $x$, $x^2$. Ce que sont réellement les polynômes orthogonaux dépend des données, mais supposons que les données sont uniformément espacées sur$[-1,1]$ et ce sont les polynômes de Chebyshev $T_0(x)=1,\, T_1(x)=x,\, T_2(x)=2x^2-1,\, T_3(x)=4x^3-3x$.
Si nous ne faisions que le maximum de vraisemblance, cela n'aurait aucune importance. Supposons que l'estimation ML basée sur les puissances de$x$ était $-0.1+2.7x-3x^2+4.5x^3$. On peut réécrire cela en termes de polynômes orthogonaux: clairement le coefficient de$T_3$ doit être 4,5 / 4 pour que le $x^3$match, et le reste prendra le calcul. Il s'avère être$-1.6T_0+6.075T_1-1.5T_2+1.125T_3$. Ce sont le même polynôme , c'est juste une manière différente d'écrire le même modèle, et dans ce cas (et presque toujours avec les ordinateurs modernes) la colinéarité n'est pas assez forte pour causer des problèmes d'arrondi numérique.
Avec l'inférence bayésienne, cependant, il y a la question des a priori. Il est plus logique de mettre des priors indépendants ($\alpha_j$ et $\beta_k$ dans l'article) sur les coefficients des polynômes orthogonaux que de mettre des priors indépendants sur les coefficients de $x$, $x^2$, $x^3$. Donc, mon hypothèse est que les polynômes orthogonaux ont été choisis de sorte que le relativement plat ($N(0,10^2)$) les a priori indépendants sur leurs coefficients avaient du sens.