Come valutare la regressione logistica su metrica continua avendo dati binari 0/1

Aug 24 2020

Diciamo che ho due modelli di regressione logistica addestrati su dati binari 0/1. L'obiettivo è prevedere un valore continuo come punteggio di confidenza di un dato esempio appartenente alla classe positiva_1 (es. "Non spam" / "spam").

Per chiarire, non considero la regressione logistica un metodo di classificazione almeno nel contesto della domanda.

Entrambi si comportano bene in termini di precisione e f1_score. Tuttavia, desidero valutarli e confrontarli in base al punteggio continuo piuttosto che alla precisione binaria . La mia comprensione dell'accuratezza binaria è malvagia .

Sebbene questi modelli possano prevedere i punteggi, la distribuzione e il comportamento della quantità continua potrebbero non corrispondere a quelli desiderati.

Ad esempio, per una data osservazione che presenta una certa somiglianza con la classe_1, questi modelli (A e B) possono produrre punteggi rispettivamente 0,01 e 0,4. Nonostante entrambi concordino e classifichino correttamente quel campione come class_0, preferirei il modello B a causa della tendenza (distanza) del campione riflesso verso la classe_1. Manualmente stimerei quel campione con 0.4999.

Quello che sto cercando è la perdita / metrica come distanza dalla classe positiva_1

| y_label_prob - y_hat_prob | -> Huge loss

piuttosto che una semplice classificazione errata

| y_label_class - y_hat_class | --> No loss

Sfortunatamente, non ho etichette continue (y_label_prob) per entrare nella regressione pura. Se lo sapessi, potrei solo calcolare errori al quadrato. Invece, ho addestrato più classificatori binari e ho usato i loro punteggi come etichette continue.

Quale potrebbe essere la raccomandazione per valutare le prestazioni rispetto alla quantità continua avendo etichette 0/1?

Risposte

6 Dave Aug 26 2020 at 17:28

Ricorda che una regressione logistica produce una probabilità, non una categoria. La tua idea di usare la perdita quadrata va bene. In effetti, questo è noto come il punteggio di Brier.

Se la tua etichetta è $1$ e la tua probabilità prevista è $0.75$, la tua perdita di punteggio Brier per quel punto è $(1-0.75)^2 = 0.0625$.

Se la tua prossima etichetta è $0$ e la tua probabilità prevista è $0.6$, la tua perdita di punteggio Brier per quel punto è $(0-0.6)^2=0.36$.

Aggiungili e ottieni $0.4225$ come il punteggio di Brier per questo modello a due punti.

$$ \text{Brier Score} $$

$$ \sum_{i=1}^n (y_i - \hat{p}_i)^2 $$

Il punteggio di Brier è un esempio di una regola di punteggio strettamente corretta. L'altro famoso, che potrebbe essere preferito, è la perdita di registro:$\sum_i y_i \log\hat{p}_i + (1-y_i) \log(1-\hat{p}_i)$.

($y_i$ è la vera etichetta; $\hat{p}_i$ è la probabilità prevista.)

Ci sono altre regole di punteggio strettamente corrette, ma queste sono le grandi cose. In particolare, la perdita assoluta non è una regola di punteggio corretta: (Perché) la perdita assoluta non è una regola di punteggio corretta? .