人工ニューラル ネットワーク (ANN) について研究しています。私は、構造変化と予測率の相関関係を主な研究対象として、多くの異なる ANN をトレーニングしようとしています。
トレーニング ステップが小さすぎるために、最初の 100 回程度の反復でトレーニング アルゴリズムがほぼ初期状態に収束することがよくあることに気付きました。なぜこれが起こるのか、私には明確な考えがありません。誰かが同じ問題に直面しましたか? この理由は何でしょうか?問題があると思われる場所から反復スキームを強制的に機能させるよりも、問題を克服するためのより良い方法はありますか?
fmincg と fminunc を使用して Octave でネットワークをトレーニングしています。バックプロップ。勾配とコスト関数を取得することは、ロジスティック回帰と同じです。問題は、最初の隠れ層に 10 ニューロン、2 番目の隠れ層に 10 ニューロンのネットワーク構造で発生しました。MNIST データベースは、トレーニング セットとテスト セットの両方に使用されています。
追加: Fminunc は 3 層 ANN ではまったくうまく機能しないようですが、2 層 ANN を使用したいくつかの確率変数の下では、問題なく収束するようです。共役勾配は、初期フェーズを強制すると機能するようです。
問題は重みのランダムな初期化でしょうか? 変動性が低すぎる可能性があります [-0.12; 0;12] 問題の原因は?
編集:ネットワーク構造部分をもう少し明確にしました。