回帰モデルの多項式(ベイズ階層モデル)

Aug 17 2020

私は訓練を受けた統計学者ではなく、文献からモデルの説明を得たいと考えています。問題の研究は、「カウントデータの過少報告を修正するための階層的フレームワーク」です。式11から14で定義されているモデル(下付き文字、解釈を容易にするために関連性のない用語は削除されています):$$ \begin{align} z_{t} \mid y_{t} &\sim \operatorname{Binomial}\left(\pi, y_t \right) \\ \log \left(\frac{\pi}{1-\pi}\right)&=\beta_{0}+g\left(u\right) \\ y_{t} &\sim \operatorname{Poisson}\left(\lambda_{t}\right) \\ \log \left(\lambda_{t}\right) &=\log \left(P_{t, s}\right)+a_{0}+f_{1}\left(x_{s}^{(1)}\right)+f_{2}\left(x_{s}^{(2)}\right) \\ &+f_{3}\left(x_{s}^{(3)}\right)+f_{4}\left(x_{s}^{(4)}\right) \end{align} $$

どこ $z_t$ 観察されたカウントと $y_t$本当の、本当のカウントです。そして機能$g, f_1, \ldots, f_4(\cdot)$ は(紙から)

次数3、2、2、2の直交多項式。生の多項式と比較して、これらは単項式間の多重共線性を低減し(Kennedy and Gentle 1980)、Rの「poly」関数を使用して設定されました。

私の理解から、このモデルは最初に真の数を推定します $y_t$。真のカウント自体は、共変量が母集団であるロジスティック回帰式、および次のような社会的指標に依存します。$x_s^{(1)} = $失業。共変量は、直交関数への入力として使用されます。真のカウントを推定すると、二項モデルでその値を使用して、「成功」の数、つまり観測されたカウントをカウントします。この場合の成功の確率は、共変量の直交関数も持つ別の回帰式によって与えられます。

私の質問はかなり単純です:

  1. 回帰モデルで直交関数を使用することについて非常に重要なことは何ですか。単純な係数を使用できないのはなぜですか(そしてこれらの係数はベイズの実装で推定されています)。

  2. 解釈log$\pi$ そして $\lambda$。にとって$\pi$、私が推測しているように、回帰式は(0、1)以外の数値に評価できるため、ilogitはそれを0、1の間で変換します。ログがなぜかかるのかわかりません。 $\lambda$

回答

3 ThomasLumley Aug 17 2020 at 21:35

最初に2.を扱いましょう。

ご想像のとおり、のロジット変換 $\pi$回帰式がその値に制限を持たないように設計されています。任意の値がにマップされます$(0,1)$。の対数変換についても同じことが言えます。$\lambda$$\lambda$ 正である必要があり、対数変換を使用すると、回帰式で正または負の任意の値をとることができます。

両方の変換のログ部分は、加算ではなく乗法モデルを取得することも意味します。これは、カウントと比率の方が理にかなっていることがよくあります。

そして、それに加えて、これらの特定の分布に対するこれらの変換がわずかにきちんとした計算につながり、デフォルトであるという数学的な理由がありますが、それはそれほど重要な理由ではないはずです。

次に、直交関数について説明します。これらは言っていない$f_1$ に直交している $f_2$; それは決定するデータ次第です。彼らは言っている$f_1$ は2次多項式です $x^{(1)}$、およびそれは、の加重和ではなく、直交項の加重和として実装されていること $x$$x^2$。直交多項式が実際に何であるかはデータによって異なりますが、データが等間隔に配置されているとしましょう。$[-1,1]$ そしてそれらはチェビシェフ多項式です $T_0(x)=1,\, T_1(x)=x,\, T_2(x)=2x^2-1,\, T_3(x)=4x^3-3x$

最尤法を実行しているだけであれば、これはまったく問題になりません。の累乗に基づく最尤推定を仮定します$x$ だった $-0.1+2.7x-3x^2+4.5x^3$。これを直交多項式で書き直すことができます。明らかに、$T_3$ を作るには4.5 / 4でなければなりません $x^3$一致し、残りは計算を行います。それは$-1.6T_0+6.075T_1-1.5T_2+1.125T_3$。これらは同じ多項式であり、同じモデルを作成する方法が異なるだけです。この場合(ほとんどの場合、最新のコンピューターでは)、共線性は数値の丸めの問題を引き起こすほど強力ではありません。

ただし、ベイズ推定では、事前確率の問題があります。独立した優先順位を付ける方が理にかなっています($\alpha_j$ そして $\beta_k$ 論文では)直交多項式の係数については、の係数に独立した事前分布を置くよりも $x$$x^2$$x^3$。したがって、私の仮定は、直交多項式が比較的平坦になるように選択されたということです($N(0,10^2)$)係数に関する独立した事前分布は理にかなっています。