私の理解が正しければ、ミニバッチで深層学習を使用する場合、すべてのミニバッチに (対応するオプティマイザーを使用して) 前方パスと後方パスがあります。しかし、エポックの終わり (すべてのミニバッチを使用した後) に何か違うことが起こりますか?
私が質問している理由は、画像セグメンテーション用の u-net の実装で、すべてのミニ バッチで損失がわずかに (0.01 のオーダーで) 減少することがわかるからです。次に、新しいエポックが始まると、前のエポックの最後のミニ バッチに対する最初のミニ バッチの損失が大きく変化します (0.5 のオーダー)。また、最初のエポックの後、テスト データの損失は、次のエポックの最初のミニ バッチの損失の順序になります。
これは、異なるミニバッチよりもエポックの終わりに重みが速く更新されるかのように解釈しますが、これをサポートする理論は見つかりませんでした。説明をいただければ幸いです。
オプティマイザに関しては、これは確率的勾配降下法と Adam の両方で発生しています。それが役立つ場合、私は Keras を使用しています。