Come quantificare bias e varianza nella regressione lineare semplice?
In termini di modellazione predittiva, come posso calcolare il bias e la varianza in un dato modello (es. Semplice regressione lineare)? So che il bias e la varianza di uno stimatore (modello di regressione lineare) per una singola previsione è:
$Bias(\hat Y)=E \hat Y-Y$
$Var(\hat Y) = E(E\hat Y-\hat Y)^2$
e che l'errore quadratico medio può essere scomposto in
$MSE = Bias^2 + Var + error$
Ma queste sono tutte formule teoriche. Non riesco ad applicare nessuna di queste quantità per valutare il mio modello di regressione lineare. A quanto mi risulta, queste quantità possono essere calcolate solo se conosco la vera distribuzione di$\hat Y$per un dato X, cosa che non facciamo mai quando lavoriamo con dati campionati reali. Da questa domanda , ho imparato che il bias per una singola previsione non è qualcosa che puoi calcolare perché devi conoscere la vera distribuzione del nostro stimatore (modello). Per quanto riguarda la varianza del mio stimatore, non so ancora se possa essere calcolata o meno.
Diciamo che l'ho fatto $\hat Y = 0.3 + 0.7X$. Per X = 5, so che il valore effettivo è$Y=4$, mentre il mio stimatore / modello prevede $\hat Y=3.8$. Per questa singola previsione, posso calcolare la varianza del mio modello? Il mio obiettivo è scomporre il MSE per questa singola previsione in bias e varianza.
La mia domanda è quindi: come sono utili queste formule per applicazioni pratiche se non siamo in grado di quantificarle?
Risposte
Citando da ISLR , pagine 33-34 , sul compromesso bias-varianza:
... il test MSE previsto, per un dato valore $x_0$, può sempre essere scomposto nella somma di tre quantità fondamentali: la varianza di $\hat f(x_0)$, la polarizzazione al quadrato di $\hat f(x_0)$ e la varianza dei termini di errore $\epsilon$. Questo è,$$ E\left( y_0 − \hat f(x_0)\right)^2 = \text{Var}\left( \hat f(x_0) \right) + \left[ \text{Bias} \left( \hat f(x_0) \right) \right]^2 + \text{Var}(\epsilon)$$ Qui la notazione $E\left( y_0 − \hat f(x_0)\right)^2$ definisce il test MSE previsto e si riferisce al test MSE medio che otterremmo se stimassimo ripetutamente $f$ utilizzando un gran numero di set di formazione e testati ciascuno a $x_0$. Il test MSE previsto complessivo può essere calcolato facendo la media$E\left( y_0 − \hat f(x_0)\right)$ su tutti i possibili valori di $x_0$ nel set di prova.
Quindi la variabile casuale in questo contesto è correlata ai valori stimati previsti in una serie di valori dati di $x_0$ su una serie di set di formazione.
Se sei disposto ad applicare il principio del bootstrap - il popolamento è al tuo set di dati come il tuo set di dati è ai campioni bootstrap da esso - il senso iniziale di Dave su come procedere era corretto. Ripeti il processo di modellazione su una serie di ricampionamenti avviati dal tuo set di dati, che rappresentano più set di addestramento. Valuta bias, varianza ed errore rispetto all'intero set di dati, che rappresenta la popolazione. Lo fai nell'intervallo di$x_0$ valori di interesse e media.
Questa è solo una stima del bias e della varianza reali del tuo processo di modellazione, ma potrebbe essere il più vicino che puoi ottenere senza avere accesso all'intera popolazione per i test e più campioni dalla popolazione per la formazione.