2

回帰タスクに確率的勾配降下法 (SGD) アルゴリズムを使用しており、入力データ ポイントを複数回反復するようにネットワークをトレーニングしています。入力データをシャッフルすると、同じ回数の反復でシャッフルされていない入力データと比較して、はるかに良い結果が得られることがわかりました。例として、[-1,1] の間の入力範囲の "Square" 関数を合計 100 ポイントと 500 回の反復で学習するためにネットワークをトレーニングしています。したがって、トレーニング ポイントの合計は 100*500 になり、これらすべてのトレーニング ポイントをシャッフルすると、システムのパフォーマンスが大幅に向上します。

誰かがその背後にある数学を示唆してもらえますか? 入力のシャッフルのパフォーマンスが向上するのはなぜですか? または、トレーニングの確率論がどのように役立つかを説明する参考文献の提案。

ありがとう。

4

2 に答える 2

0

SGD は、検出された各サンプルに基づいて大幅な調整を行い、その後、残りのサンプルをさらに細かく調整することで機能するため、サンプルの順序は重要です。これは、モデルが最初の数回の反復で正または負のサンプルのみに遭遇している場合に特に当てはまります。

于 2015-04-09T12:37:56.700 に答える