まず第一に、一部のアルゴリズムは初期重みがゼロでも収束します。簡単な例は、線形パーセプトロン ネットワークです。もちろん、多くの学習ネットワークではランダムな初期重み付けが必要です (ただし、これは最速かつ最良の答えを得ることを保証するものではありません)。
ニューラルネットワークはバックプロパゲーションを使用して重みを学習および更新しますが、問題は、この方法では、重みがグローバル最適ではなく、ローカル最適 (ローカル最小コスト/損失) に収束することです。
ランダムな重み付けは、ネットワークが利用可能なスペース内の各方向のチャンスをつかみ、それらを徐々に改善してより良い答えに到達し、1 つの方向または答えに限定されないようにするのに役立ちます。
[下の画像は、収束の様子を一次元で表した例です。初期位置が与えられると、ローカル最適化は達成されますが、グローバル最適化は達成されません。より高い次元では、ランダムな重み付けにより、適切な場所にいる可能性やより適切に開始できる可能性が高くなり、結果として重みがより適切な値に収束する可能性があります。][1]
[1]: https://i.stack.imgur.com/2dioT.png [Kalhor, A. (2020). 分類および回帰 NN。講義。]
最も単純なケースでは、新しい重みは次のようになります。
W_new = W_old + D_loss
ここでは、コスト関数勾配が前の重みに追加されて、新しい重みが取得されます。前の重みがすべて同じである場合、次のステップではすべての重みが等しくなる可能性があります。その結果、この場合、幾何学的な観点から、ニューラル ネットワークは一方向に傾き、重みはすべて同じになります。ただし、重みが異なる場合は、異なる量で重みを更新することができます。(各重みが結果に与える影響係数に応じて、コストと重みの更新に影響します。そのため、最初のランダムな重み付けの小さなエラーでも解決できます)。
これは非常に単純な例ですが、ランダムな重み付けの初期化が学習に与える影響を示しています。これにより、ニューラル ネットワークは一方の側に移動するのではなく、別のスペースに移動できます。その結果、学習の過程で、これらのスペースの最高のものに行きます