回帰タスクに確率的勾配降下法 (SGD) アルゴリズムを使用しており、入力データ ポイントを複数回反復するようにネットワークをトレーニングしています。入力データをシャッフルすると、同じ回数の反復でシャッフルされていない入力データと比較して、はるかに良い結果が得られることがわかりました。例として、[-1,1] の間の入力範囲の "Square" 関数を合計 100 ポイントと 500 回の反復で学習するためにネットワークをトレーニングしています。したがって、トレーニング ポイントの合計は 100*500 になり、これらすべてのトレーニング ポイントをシャッフルすると、システムのパフォーマンスが大幅に向上します。
誰かがその背後にある数学を示唆してもらえますか? 入力のシャッフルのパフォーマンスが向上するのはなぜですか? または、トレーニングの確率論がどのように役立つかを説明する参考文献の提案。
ありがとう。