回帰:過剰適合を克服するために連続変数をビン化するのは間違っていますか?
統計学者は、次のことをしたことで私を絞首刑にしますか?
私は高齢者の異種データセットを持っています。したがって、4つのカテゴリの予測子を含む7つの予測子を持つモデルがあり、そのうちのいくつかには多くのレベルがあります。私は地域分析を行っています。つまり、一部の地域では、さまざまなカテゴリ変数の特定の参照レベルで対象が少なくなっています。
被験者は主に70〜90歳です。50〜100の範囲の年齢変数は、プロットの説明データ分析と比較しながら、明らかに過剰適合を引き起こしています。一部の地域では、平均年齢で有意義な予測を行うのに十分な被験者がいないことがわかりました。年齢変数を10年のビンにビン化し、被験者数が最も多いビンを参照として使用すると、回帰の結果は説明データ分析と一致します。
生データのプロットと調整された分析の両方を公開した場合、年齢変数のビニングは問題ありませんか?したがって、両方の分析により、主な結果である地域の変動性が確認されます。
回答
連続変数をビニングすることは良い考えではありません。あなたはそれをするために統計学者によって物理的に暴行される可能性は低いですが、あなたはおそらく多くの激しい凝視と眉をひそめ、息を切らしてつぶやくでしょう。
このタイプの問題に対処するには、眉をひそめている人を笑顔に変える、はるかに優れたアプローチがあります。混合モデルを使用します。これにより、各地域内の予測子のすべての組み合わせを網羅しなくても、異なる地域の個人間で情報を便利に組み合わせることができます。個人と地域の両方を変量効果として扱うマルチレベルモデルで実行できる研究の目的に応じて。この最近の回答は、そのようなモデリングの利点についての素晴らしい説明を提供します。
連続予測子としての年齢に関しては、線形モデリングプロセスの一部として、年齢と結果の間の非線形関係を検出できるスプラインを使用してモデル化すると便利な場合があります。これは、標準のソフトウェアパッケージを介して混合モデルに組み込むことができます。