AUCがどれだけ優れているかを判断します(ROC曲線下面積)
私は現在、アウトサンプルデータの結果を予測するための予測子としてさまざまなデータセットを使用するプロジェクトに取り組んでいます。AUC(ROC曲線下面積)を使用して、各データセットのパフォーマンスを比較します。
私はAUCとROCの背後にある理論に精通していますが、AUCを評価するための正確な基準があるのではないかと思います。たとえば、AUCの結果が0.75を超える場合、「GOOD AUC」、または0.55未満に分類されます。 、「BADAUC」として分類されます。
そのような標準はありますか、それともAUCは常に比較のみを目的としていますか?
回答
コメントから:
Calimo:あなたがトレーダーであり、将来の金融取引の予測で0.501のAUCを取得できる場合、あなたは世界で最も裕福な人です。あなたがCPUエンジニアであり、ビットが0か1かを判断する際にデザインのAUCが0.999である場合、役に立たないシリコン片があります。
これはアンドレイの答え(+1)を補完するものです。
AUC-ROC値で一般的に受け入れられている参照を探していたとき、私はホスマーの「出くわしたアプライド・ロジスティック回帰」。チャプトで。5「モデルの適合性の評価」では、「「マジック」ナンバーはなく、一般的なガイドラインのみ」を強調しました。その中で、以下の値が与えられている:
- ROC = 0.5これは、差別がないことを示しています(...)。
- 0.5 <ROC <0.7この不十分な識別を考慮します(...)。
- 0.7 $\leq$ ROC <0.8この許容できる差別と見なします。
- 0.8 $\leq$ ROC <0.9この優れた識別と見なします。
- ROC $\geq$ 0.9この顕著な差別を考慮します。
これらの値は決して固定されたものではなく、コンテキストなしで与えられます。スタートレックが教えているように、「普遍的な法則は貧しい人々のためのものであり、文脈は王たちのためのものです」、つまり(そしてもっと真剣に)私たちは特定の決定をしていることと私たちの測定基準が何を反映しているかを理解する必要があります。私のガイドラインは次のとおりです。
- 新しいタスクについては、既存の文献を積極的に調べて、競争力のあるパフォーマンスと見なされるものを確認する必要があります。(例えば、X線画像からの肺がんの検出)これは実際には文献レビューです。
- 私たちのタスクが文献に存在しない場合は、合理的なベースラインモデルよりも改善を提供することを目指す必要があります。そのベースラインモデルは、いくつかの簡単な経験則、他の既存のソリューション、および/または人間の評価者によって提供される予測である可能性があります。
- 既存の文献がなく、利用可能な単純なベースラインモデルがないタスクがある場合は、「より良い/より悪い」モデルのパフォーマンス比較を試みるのをやめるべきです。この時点で、「AUC-R0C0.75が悪い」または「AUC-ROC0.75が良い」と言うのは意見の問題です。
それは本当にタスクとデータに依存するので、言うことはできません。一部の単純なタスクの場合、AUCは90以上になる可能性があり、他のタスクの場合は約0.5〜0.6になります。