Come valutare la regressione logistica su metrica continua avendo dati binari 0/1
Diciamo che ho due modelli di regressione logistica addestrati su dati binari 0/1. L'obiettivo è prevedere un valore continuo come punteggio di confidenza di un dato esempio appartenente alla classe positiva_1 (es. "Non spam" / "spam").
Per chiarire, non considero la regressione logistica un metodo di classificazione almeno nel contesto della domanda.
Entrambi si comportano bene in termini di precisione e f1_score. Tuttavia, desidero valutarli e confrontarli in base al punteggio continuo piuttosto che alla precisione binaria . La mia comprensione dell'accuratezza binaria è malvagia .
Sebbene questi modelli possano prevedere i punteggi, la distribuzione e il comportamento della quantità continua potrebbero non corrispondere a quelli desiderati.
Ad esempio, per una data osservazione che presenta una certa somiglianza con la classe_1, questi modelli (A e B) possono produrre punteggi rispettivamente 0,01 e 0,4. Nonostante entrambi concordino e classifichino correttamente quel campione come class_0, preferirei il modello B a causa della tendenza (distanza) del campione riflesso verso la classe_1. Manualmente stimerei quel campione con 0.4999.
Quello che sto cercando è la perdita / metrica come distanza dalla classe positiva_1
| y_label_prob - y_hat_prob | -> Huge loss
piuttosto che una semplice classificazione errata
| y_label_class - y_hat_class | --> No loss

Sfortunatamente, non ho etichette continue (y_label_prob) per entrare nella regressione pura. Se lo sapessi, potrei solo calcolare errori al quadrato. Invece, ho addestrato più classificatori binari e ho usato i loro punteggi come etichette continue.
Quale potrebbe essere la raccomandazione per valutare le prestazioni rispetto alla quantità continua avendo etichette 0/1?
Risposte
Ricorda che una regressione logistica produce una probabilità, non una categoria. La tua idea di usare la perdita quadrata va bene. In effetti, questo è noto come il punteggio di Brier.
Se la tua etichetta è $1$ e la tua probabilità prevista è $0.75$, la tua perdita di punteggio Brier per quel punto è $(1-0.75)^2 = 0.0625$.
Se la tua prossima etichetta è $0$ e la tua probabilità prevista è $0.6$, la tua perdita di punteggio Brier per quel punto è $(0-0.6)^2=0.36$.
Aggiungili e ottieni $0.4225$ come il punteggio di Brier per questo modello a due punti.
$$ \text{Brier Score} $$
$$ \sum_{i=1}^n (y_i - \hat{p}_i)^2 $$
Il punteggio di Brier è un esempio di una regola di punteggio strettamente corretta. L'altro famoso, che potrebbe essere preferito, è la perdita di registro:$\sum_i y_i \log\hat{p}_i + (1-y_i) \log(1-\hat{p}_i)$.
($y_i$ è la vera etichetta; $\hat{p}_i$ è la probabilità prevista.)
Ci sono altre regole di punteggio strettamente corrette, ma queste sono le grandi cose. In particolare, la perdita assoluta non è una regola di punteggio corretta: (Perché) la perdita assoluta non è una regola di punteggio corretta? .