回帰分析に交差検定を使用するのはなぜですか?
私の仕事では、予測の目的で多項ロジスティック回帰を適合させようとしています。現在、Repeated Stratified K Foldsを使用して交差検定を適用していますが、これまでに回答されたことがない方法について、まだいくつか質問があります。
クロス検証を使用して回帰をテストすることは意味がありますか?この場合、ハイパーパラメーターを調整していませんか?クロスバルブがハイパーパラメータの調整に最も役立つことをたくさん見てきました。
10回のフォールドを3回繰り返してモデル(同じ予測子を使用した回帰)を実行したところ、各フォールドで非常に優れたメトリックが得られました(ROC 0.95、マイクロ平均適合率-再現率0.94など)。モデルは適切に識別し、適切に予測することができます。回帰が過剰適合していないことを確信できますか?つまり、予測子として実行するために選択した変数がデータに過剰適合しないということです。
最後に、そこで分析を技術的に終了できるかどうか、またはすべて同じ予測子を使用して「最終モデル」を作成し、データの大部分(すべてではないにしても)でトレーニングできるかどうかはわかりません。会社が実際にこのモデルを実行したいのであれば、予測するために「最終的な適合」が必要になると思いますよね?この最終モデルに別のトレインテスト分割を使用する必要がありますか?
あなたの助けは大歓迎です!
回答
相互検証は、ハイパーパラメータの調整、サンプル外エラーの安定性など、多くのタスクに使用できますが、さまざまなモデルを比較するのに最も役立つと思います。
たとえば、2つのモデルがあり、両方で相互検証を実行する場合、異なるフォールドのパフォーマンスを比較して、一方のモデルが他方よりも優れているかどうかを確認できます。これを行うことで、たとえば10倍にすると、1つのテストセットのみを使用する場合(つまり、1倍の検証)と比較して、サンプル外のパフォーマンスをより確実に見積もることができます。
より複雑なモデルでは、平均AUCが0.97になる場合があります。または、オーバーフィットしてAUCが0.9になる場合もあります。サンプルからモデルをより単純なモデルと実際に比較した場合にのみ、モデルが適合しているかどうかを判断できます。
最後の質問:相互検証を行う最適なモデルを見つけ、このモデルを本番環境で使用することを決定したら、利用可能なすべてのデータでモデルをトレーニングして、最も正確な推定値を取得する必要があります。可能。