Caffe の MNIST データセットでCaffeNetをトレーニングしたいと考えています。100
しかし、反復後に損失がわずかに減少したことに気付きました (から2.66364
へ2.29882
)。
ただし、MNISTで LeNet を使用すると、反復後に損失が から2.41197
になります。0.22359
100
これは、CaffeNet がより多くの層を持っているため、収束するためにより多くのトレーニング時間が必要になるためでしょうか? それとも別の原因ですか?ネットのsolver.prototxtが同じであることを確認しました。
100 回の反復が非常に短いことはわかっていますが (CaffeNet は通常、300 ~ 400k の反復でトレーニングするため)、LeNet が非常に小さい損失をすぐに得ることができるのは奇妙だと思います。