深層学習の二重降下が分かったかもしれない
1.はじめに
機械学習では、モデルサイズを大きくしていくとtest誤差が下がったのち上がってしまう(過学習)ことが知られていますが、深層学習ではこれに反し非常に大きなモデルでは、過学習になったのち学習を続けるとtest誤差が下がっていく(最初下がって一回上がってまた下がるので「二重降下」)現象が知られています。
ちょっと調べた結果、なんとなく説明できる理屈を思いついたのでメモしておきます。
2.二重降下現象の直感的説明 二重降下は一度パラメータがtrainingデータを完全