モデルのサイズ、表現力、過剰適合-Goodfellow etal。のステートメントに関する混乱

Aug 23 2020

Goodfellow etal。ディープラーニングの第12.1.4章を本

これらの大きなモデルはいくつかの関数f(x)を学習しますが、タスクに必要な数よりも多くのパラメーターを使用して学習します。それらのサイズは、トレーニング例の数が限られているためにのみ必要です。

私はこれを理解することができません。大きなモデルは表現力豊かですが、いくつかの例でトレーニングすると、オーバーフィットするはずです。では、トレーニング例の数が限られているために、大きなモデルが必要であると著者が言っているのはどういう意味ですか。これは、トレーニングデータが限られているときにバイアスを増やすという精神に反しているようです。

回答

1 shimao Aug 23 2020 at 22:35

すぐ上で、彼はアンサンブルについて言及したので、アンサンブルで一度に多くのモデルをトレーニングする一般的な方法(明らかにパラメーターの数を増やす)に言及している可能性があります。これは、限られた量のデータでもパフォーマンスを向上させることが示されています。ここ。

これは、トレーニングデータが限られているときにバイアスを増やすという精神に反しているようです。

アンサンブル法は、パラメーターの数が増えるケースの1つだと思いますが、(正確なアンサンブル法によっては)全体的な効果は正則化される可能性があります。

あるいは、従来の理解とは逆に、パラメーターの数を増やすとテストのパフォーマンスが向上する現象である「ダブルディセント」についても言及している可能性があります。