-4

Caffe の MNIST データセットでCaffeNetをトレーニングしたいと考えています。100しかし、反復後に損失がわずかに減少したことに気付きました (から2.663642.29882)。

ただし、MNISTで LeNet を使用すると、反復後に損失が から2.41197になります。0.22359100

これは、CaffeNet がより多くの層を持っているため、収束するためにより多くのトレーニング時間が必要になるためでしょうか? それとも別の原因ですか?ネットのsolver.prototxtが同じであることを確認しました。

100 回の反復が非常に短いことはわかっていますが (CaffeNet は通常、300 ~ 400k の反復でトレーニングするため)、LeNet が非常に小さい損失をすぐに得ることができるのは奇妙だと思います。

4

1 に答える 1

0

私はこれらのネットのアーキテクチャに精通していませんが、一般的にいくつかの理由が考えられます:

1) ネットの 1 つは、実際にははるかに複雑です。

2) ネットの 1 つは、より大きな学習率でトレーニングされました。

3) それとも他のネットでは使われなかった勢いのあるトレーニングを使ったのでしょうか?

4) 両方ともトレーニング中に運動量を使用する可能性もありますが、どちらか一方がより大きな運動量係数を指定していた可能性があります。

本当に、それにはたくさんの可能な説明があります。

于 2015-12-15T16:07:09.777 に答える