Perché sono necessari modelli di grandi dimensioni quando disponiamo di un numero limitato di esempi di addestramento?
In Goodfellow et al. libro Deep Learning capitolo 12.1.4 scrivono
Questi grandi modelli apprendono alcune funzioni$f(x)$, ma farlo utilizzando molti più parametri di quelli necessari per l'attività. La loro dimensione è necessaria solo a causa del numero limitato di esempi di formazione.
Non sono in grado di capire questo. I modelli di grandi dimensioni sono espressivi, ma se li alleni su pochi esempi dovrebbero anche adattarsi troppo.
Quindi, cosa intendono gli autori dicendo che i modelli di grandi dimensioni sono necessari proprio a causa del numero limitato di esempi di addestramento?
Ciò sembra andare contro lo spirito di utilizzare più pregiudizi quando i dati di addestramento sono limitati.
Risposte
Se leggi l'apposita sezione. dice anche:
La compressione del modello è applicabile quando la dimensione del modello originale è guidata principalmente dalla necessità di prevenire l'overfitting. Nella maggior parte dei casi, il modello con l'errore di generalizzazione più basso è un insieme di diversi modelli addestrati in modo indipendente. Valutare tutto$n$membri dell'ensemble è costoso. A volte, anche un singolo modello si generalizza meglio se è grande (ad esempio, se è regolarizzato con dropout).
La parola chiave (credo) qui è abbandono. Dropout Learning nel libro citato è stato interpretato come l'addestramento di un insieme di modelli, con una probabilità del modello uguale alla probabilità di una particolare architettura di abbandono della grande rete neurale. Pertanto, questo rende effettivamente l'addestramento come l'addestramento di più reti neurali più piccole. Secondo questo documento sull'abbandono, degli autori originali, l'abbandono previene il co-adattamento, il che significa effettivamente che stai solo addestrando un insieme di reti neurali. Ma questa intuizione è priva di qualsiasi giustificazione teorica.
Un altro documento (la comprensione del documento potrebbe richiedere familiarità con alcune idee statistiche di ML) afferma che ciò non è vero e che l'abbandono non riduce il co-adattamento ma più probabilmente riduce la varianza rispetto ai modelli di abbandono. Hanno fornito migliori giustificazioni empiriche e teoriche a tal fine. Quindi è ancora in discussione ciò che accade realmente.
Ma in generale il limite superiore dell'errore di generalizzazione è molto approssimativamente direttamente proporzionale alla dimensione delle reti neurali. Quindi sì, l'affermazione degli autori nel valore nominale è semplificata e molto probabilmente sbagliata nel caso generale.