ロジスティック回帰モデルの線形性の仮定に違反した場合の解決策は?(おそらくRで)
設定したロジスティック回帰に問題があり、誰かが私を助けてくれることを願っています。(私はRと協力しています)
私のデータは1時間ごとの値に基づいています。従属変数は二分変数(1または0)です。モデルには、30のメトリック独立変数が含まれています(そのうちの9つには、正と負の両方の観測値があります)。
ここで私の問題:ロジスティック回帰の1つの仮定は、結果のロジットと各独立したメトリック変数の間に線形関係があるということです。この仮定は、私のすべてのモデルで違反しています。(ロジスティック回帰の他のすべての仮定に違反していません)。
これを確認するために、Box-Tidwellテストを数回適用しました。ロジスティック回帰のすべての変数を使用して、元の従属変数を独立変数に回帰し、独立変数と独立変数のそれぞれの対数変換を使用した積を回帰しました。
(y ~ x1 + (x1*ln(x1)) + x2 + (x2*ln(x2)) + ... , familiy = binomial("logit"))
さらにboxTidwell(model$linear.predictors ~ independent variable)
、各変数のR関数を使用して線形性の仮定を個別にテストしました。ほとんどすべての変数について、テストは有意性を示し、したがってモデルの仮定に違反していました。独立変数のいくつかの変換も役に立ちませんでした。さらに、私のモデルはホスマー・レメショー検定に失敗しました。
メトリック独立変数をカテゴリ変数に変換すれば、この仮定を回避できることを私は知っています。ただし、これは避けたいと思います。また、スプラインの方法論で問題に対処できることも読みました。残念ながら、これを説明する文献は見つかりませんでした。特にロジスティックモデルの推定には適していません。
ここで誰かが親切に私を助けてくれるかどうか知りたいです。
仮定に違反すると、このモデルの使用が許可されないため、結果が間違っている可能性がありますか?(モデルを予測モデルまたは予測モデルとして使用するのではなく、データの期間内に説明/説明するためだけに使用します。)
問題を解決するためにスプラインの方法論をどのように適用しますか?結果をどのように解釈しますか?(これらの説明がRコードによってサポートされていれば、非常に役立ちます。)
回答
いくつかのポイント:
Hosmer-Lemeshowテストは廃止されたと見なされます:ロジスティック回帰のHosmer-LemeshowとAIC
線形性の仮定をテストするのではなく、回帰スプラインを直接使用して、その仮定を必要としないようにします。このサイトには多くの例があります(ロジスティック回帰でスプラインを使用すると、他の回帰モデルと同じように機能することに注意してください)方程式の右辺で使用すると、スプラインはどのように機能しますか?、平滑スプライン/レス回帰のp値を見つけるにはどうすればよいですか?
別の方法は、フィッティングの一部として平滑化の程度(たとえばスプラインノットの数)を選択できるgam(一般化された加法モデル)です。参照してくださいRで重回帰のための変数を変換、なぜRのmgcvでパラメータを変更した後、私のスプラインは、より柔軟ではないになるのですか?