neural-network - XOR 関数学習 - ニューラルネットワークで停滞を引き起こす初期の重み

Question

2 つのエントリ変数、2 つのニューロンを持つ 1 つの隠れ層、1 つの出力ニューロンを持つ出力層を持つニューラルネットワークがあります。ランダムに (0 から 1 まで) 生成された重みから始めると、ネットワークは XOR 関数を非常に速く適切に学習しますが、それ以外の場合、ネットワークは XOR 関数を決して学習しません! なぜこれが起こるのか、どうすればこの問題を解決できるのか知っていますか? 混沌とした行動が関係している可能性はありますか? ありがとう！

score 0 · Accepted Answer

多層 NN の誤差関数は凸型ではなく、最適化が極小値に収束するため、これはごく普通の状況です。

最適化が成功した初期の重みを維持するか、異なる重みから開始してオプティマイザーを複数回実行し、最適なソリューションを維持することができます。最適化アルゴリズムと学習率も特定の役割を果たします。たとえば、運動量を伴う逆伝播や確率的勾配降下法がうまく機能することがあります。また、XOR を学習するために必要な最小値を超えてニューロンを追加すると、これも役立ちます。

シミュレーテッドアニーリングなど、グローバルな最小値を見つけるように設計された方法論は存在しますが、実際には、いくつかの特定のケースを除いて、NN の最適化には一般的に使用されません。

neural-network - XOR 関数学習 - ニューラル ネットワークで停滞を引き起こす初期の重み

1 に答える 1

Related

Reference

neural-network - XOR 関数学習 - ニューラルネットワークで停滞を引き起こす初期の重み