ニューラル ネットワークのトレーニングには、いくつかのオプティマイザーがあります。しかし、Momentum と SGD は常に、適応型の方法よりも優れているように見えます。
現在、他の人の結果を再現するためにテンソルフローでプログラムを書いています。彼らは運動量を使って訓練しpylearn2
ます。しかし、いくつかのパラメーターがあります: モメンタム ファクター、ウェイト スケール、バイアス スケールです。ドロップアウト レイヤーのウェイトとしてウェイト スケールを割り当てます。
ネットワークをトレーニングするときは、Momentum を使用します。ただし、結果はトレーニングが難しすぎるようで、常に損失が大きくなります。adam を使用してトレーニングした場合の結果は悪くないように見えますが、0.00X での結果は彼よりも悪いです。
Momentum オプティマイザーのチューニング方法を知りたいです。また、自分のプログラムがうまく動かない理由も知りたいです。