繰り返しのトレイン/テスト分割を使用して、モデルのパフォーマンスを比較するための対応のあるt検定(または他の何か)?

Aug 18 2020

2つのモデルのテストROCAUCを比較するための正しい統計的テストを探しています。私は次のことをしました:

  1. ランダムにtrain/ test1,000個の観測データセットを分割します(700/300)
  2. 二つの異なる方法論(中央値/モード対予測)を用い転嫁欠損値:train_atrain_btest_atest_b
  3. 列車のデータセットで2つの同一のモデルを作成します。model_amodel_b
  4. ROC AUCを使用して、テストデータセットでこれらの二つのモデルを評価:test_AUC_atest_AUC_b
  5. 別のランダムパーティションで手順1〜4を繰り返します(合計100回)

私の結果は次のようになります(ベクトルの長さは100です):

test_AUC_a <- c(0.786, 0.767, 0.730, 0.728, 0.784)
test_AUC_b <- c(0.777, 0.751, 0.733, 0.700, 0.767)

私は本当に私が尋ねるしようとしている、欠損値を帰するこれらの2つの方法を比較するために実行するために「正しい」の統計的検定を探しています「ん方法論aの方法論よりも高いテストAUCで結果をb


ここで本当に2つの質問があります。

  1. ここで片側検定は適切ですか?(予測代入)がより良い結果を提供するbという証拠がない限り、より単純な方法論(中央値/最頻値代入)を使用する予定です。a
  2. 対応のあるt検定は適切ですか?したがって、次のいずれかを使用します。
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "greater")
t.test(test_AUC_a, test_AUC_b, paired = T, alternative = "two.sided")

私の研究では、対応のあるt検定で正しい方向に進んでいるように見えますが、修正されたリサンプリングされたt検定統計を提案するNadeau Bengio(16ページ)に出くわしました(列車とテストセットはデータの各リサンプルと重複します)が、私が紙を正しく理解しているかどうか、そしてそれがここで適切であるかどうかはわかりません。

正直なところ、すべての数学を理解してRコードに変換するのにも苦労しているので、必要に応じて修正されたテスト(1または2テール)を実行する方法がわかりません。

誰かが私を助けてくれることを本当に願っています!仮説検定は本当に私の強みではありません

回答

1 Lewian Aug 18 2020 at 17:08

Nadeau&Bengioの論文を知らなかったので、これは私にとって良かったです。これは実際には非常に興味深いものです。それは難しい論文であり、私の理解が100%正しいことを保証することはできません。そのため、その論文について今書いていることには何の保証もありません。この論文は興味深いものですが、最も明確に書かれているとは思いません。以下を参照してください。

(1)ここで重要なのは、一般的な発言をしたい「問題の人口」についてです。実験でどの方法がどれだけ優れているかを確認したいだけの場合は、テストは必要ありません。平均値と視覚的表示の違いを見ることができます。

(2)明らかに、これにはランダムな変動があります。テストでは、表示される違いがランダムな変動で説明できるかどうかを確認しますが、どの種類の変動が関連するかを判断する必要があります。データセットは1つしかないようです。ここで、1つの観点(これからのP1)は、データセットが固定されていると言い、ランダム分割に対するランダム変動についてのステートメントを作成することにのみ関心があるということです。別の観点(P2)は、データセットがランダムであることも考慮に入れており、基礎となる母集団についてステートメントを作成することです。$P$データセットの。ここでの私の最初のコメントは、P2は一見絶望的に見えるということです。データセットは1つだけです。つまり、その母集団のデータセットの1つの有効なサンプルサイズがあります。サンプルサイズからは、あまり言えません。

(3)P2、ナドーとベンジオの論文、および一般化の問題について説明します。 $P$(6)で。これは微妙で難しいので、最初に簡単な説明をします。

(4)P1では、データのさまざまな分割は実際には独立しています(NadeauとBengioの難しさの原因であるP2ではありません)。したがって、ここでは、標準の対応のあるt検定で問題ありません。レプリケートの数は十分に大きく、100で十分です。しかし、明らかにこれにより、同じデータセットでより多くの分割を行うと予想されることを一般化することしかできません(実際には、これが最善だと思います。以下を参照してください)。

(5)片側検定を選択するか両側検定を選択するかは、最初の質問が非対称か対称かによって異なります。方法Aが優れているかどうかだけに関心がある場合(これは新しい方法であり、優れていない場合は、悪いか同じかどうかに関係なく破棄します)、一方的な方法を使用します。テスト。このデータセットでメソッドがどの方向でも異なるという証拠があるかどうかに関心がある場合は、両側検定を使用します。

(6)実際には、P2はNadeauとBengioが論文で取り上げているもののようです。彼らのすべてのモデリングでは、データセットはランダムとして扱われ、単一のデータセットを持つことから推定できる汎化誤差が発生するように見えますが、彼らの論文はそれをひどく明確にしていません。実際、彼らのシミュレーション研究では、1000個のデータセットを生成しますが、p.259で、4(そのうちの1つを引用)は単一のデータセットに適用されます。したがって、ナドーとベンジオは、これが「効果的なサンプルサイズ1」の状況であり、実際にはそれほど多くを語ることができないと直感的に言うセットアップを扱います。私は彼らがこれをするのが間違っていると言っていますか?まあ、それは異なります。データセットを想定している場合$Z=(Z_1,\ldots,Z_n)$ iidであり、母集団からランダムに抽出されます $P$ そのようなデータセットの(つまり、 $Z$ iidですが、その異なる完全なデータセットもあります $Z$ 複数が描かれた場合はiidになります)、実際には $Z$ 場合、かなりの情報が含まれています $n$ で予想される変動については十分に大きい $P$。したがって、ナドーとベンジオでの計算は正当です(そして、それらのシミュレーションでは、明らかにそのようなケースを処理するため、存在します)が、実際には、それらの関連性は非常に限られていると思います。これは、通常、データセットが1つしかない場合、これが明確に定義された母集団から抽出されたものであると主張するのは非常に難しいためです。それ$P$架空のものです。これは、「このデータセットによってiidの方法で表される母集団があると想像してみましょう」です。これは、基本的に、データセットが母集団を暗黙的に定義し、最終的にはデータセット自体についてのみ推論していることを意味します。(その理論の適用可能性を支持するより説得力のある事例が作られる可能性を排除するものではありませんが、せいぜい非常に例外的だと思います。)

論文を読むと、ナドーとベンジオは、非常に慎重に聞こえるいくつかの近似を使用しており、それは有効性の数学的証明に基づいていないこともわかります。有効性は実際にはの正確な性質に依存します$P$、著者はそれについて仮定をしていません(いずれの場合も、有効なサンプルサイズ1ではチェックできませんでした)。私の理解では、この論文の不正確さ(著者は称賛に値するほどオープンです)は、正確なことを言うには大胆な仮定が必要であるという事実から正確に来ています$P$実質的に複数のデータセットがない限り、実際の状況ではテストできません。彼らが提案する方法が彼らのシミュレーションでうまくいく限り、これは明らかに彼らのシミュレーションでの事実に加えて、適度にうまく機能するシミュレーション設定が選択されたという事実によるものです。$Z$ 実際にはiidはから引き出されています $P$、これは彼らが実際に行う重要な仮定です。ほとんどの実際の状況では、実際のデータセットが1つある場合$Z$そして、これらの方法を適用してみてください。これがすでに持っている1つのデータセットであるという事実は、それが何らかの形で特別であり、明確に定義されたデータセットの母集団からランダムに抽出されていないことを意味します。(そうでなければ、なぜもっと描くことが問題になるのでしょうか?)

ですから、私の印象では、ナドーとベンジオの方法論では、単純な対応のあるt検定よりもはるかに先に進むことはできません。また、まったく同じデータセットで分割を増やすとどうなるかを確実に一般化することしかできません。より多くが必要な場合は、より多くの(真に独立した)データセットが必要です。