Dimensioni del modello, espressività e overfitting: confusione su un'affermazione in Goodfellow et al
In Goodfellow et al. libro Deep Learning capitolo 12.1.4 che scrivono
Questi modelli di grandi dimensioni apprendono alcune funzioni f (x), ma lo fanno utilizzando molti più parametri di quelli necessari per l'attività. La loro dimensione è necessaria solo a causa del numero limitato di esempi di formazione.
Non sono in grado di capirlo. I modelli di grandi dimensioni sono espressivi ma se li alleni su pochi esempi dovrebbero anche overfit. Quindi cosa intendono gli autori dicendo che i modelli di grandi dimensioni sono necessari proprio a causa del numero limitato di esempi di formazione. Questo sembra andare contro lo spirito di usare più bias quando i dati di addestramento sono limitati.
Risposte
Immediatamente sopra, ha menzionato gli ensemble, quindi è probabile che si riferisca alla pratica comune di addestrare molti modelli contemporaneamente in un insieme (che ovviamente gonfia il numero di parametri), che ha dimostrato di migliorare le prestazioni anche su quantità limitate di dati . qui .
questo sembra andare contro lo spirito di usare più bias quando i dati di addestramento sono limitati.
Immagino che i metodi di insieme siano uno di quei casi in cui il numero di parametri è aumentato, ma (a seconda del metodo di assemblaggio esatto), l'effetto complessivo può essere regolarizzante.
In alternativa, potrebbe anche riferirsi alla " doppia discesa ", un fenomeno in cui l'aumento del numero di parametri può aumentare le prestazioni del test, contrariamente alla comprensione convenzionale.