バイナリ0/1データを使用して、連続メトリックでロジスティック回帰を評価する方法
バイナリ0/1データでトレーニングされた2つのロジスティック回帰モデルがあるとしましょう。目標は、正のclass_1に属する特定の例の信頼度のスコアとして連続値を予測することです(例:「スパムではない」/「スパム」)。
明確にするために、少なくとも質問の文脈では、ロジスティック回帰を分類方法とは見なしません。
どちらも精度とf1_scoreの点で優れています。ただし、バイナリの精度ではなく、継続的なスコアリングに基づいて評価および比較したいと思います。私の理解しているバイナリの精度は悪です。
これらのモデルはスコアを予測する場合がありますが、連続量の分布と動作が目的の量と一致しない場合があります。
たとえば、class_1とある程度類似している特定の観測値により、これらのモデル(AおよびB)はそれぞれ0.01および0.4のスコアを生成する可能性があります。そのサンプルをclass_0として同意し、正しく分類しますが、class_1に対するサンプルの傾向(距離)がより適切に反映されるため、モデルBを優先します。手動でそのサンプルを0.4999と推定します。
私が探しているのは、正のclass_1までの距離としての損失/メトリックです。
| y_label_prob - y_hat_prob | -> Huge loss
単なる誤分類ではなく
| y_label_class - y_hat_class | --> No loss

残念ながら、純粋な回帰に入る連続ラベル(y_label_prob)はありません。もし私が持っていれば、二乗誤差を計算することができました。代わりに、複数のバイナリ分類器をトレーニングし、それらのスコア平均を連続ラベルとして使用しました。
0/1ラベルを使用して、連続量に関するパフォーマンスを評価するための推奨事項は何ですか?
回答
ロジスティック回帰は、カテゴリではなく確率を出力することに注意してください。二乗損失を使用するためのあなたの考えは素晴らしいです。実際、それはブライアスコアとして知られています。
あなたのラベルが $1$ そしてあなたの予測される確率は $0.75$、そのポイントのブライアスコアの損失は $(1-0.75)^2 = 0.0625$。
次のラベルが $0$ そしてあなたの予測される確率は $0.6$、そのポイントのブライアスコアの損失は $(0-0.6)^2=0.36$。
それらを合計して取得します $0.4225$ この2点モデルのブライアスコアとして。
$$ \text{Brier Score} $$
$$ \sum_{i=1}^n (y_i - \hat{p}_i)^2 $$
ブライアスコアは、厳密に適切なスコアリングルールの一例です。好まれるかもしれない他の有名なものは、ログ損失です:$\sum_i y_i \log\hat{p}_i + (1-y_i) \log(1-\hat{p}_i)$。
(($y_i$ 本当のラベルです。 $\hat{p}_i$ は予測される確率です。)
他にも厳密に適切なスコアリングルールがありますが、これらは大きな問題です。特に、絶対損失は適切なスコアリングルールではありません:(理由)絶対損失は適切なスコアリングルールではありませんか?。