machine-learning - シャッフルデータを使用した回帰の確率的勾配降下法は、シャッフルされていない場合よりも優れたパフォーマンスを発揮します。なんで？

Question

回帰タスクに確率的勾配降下法 (SGD) アルゴリズムを使用しており、入力データポイントを複数回反復するようにネットワークをトレーニングしています。入力データをシャッフルすると、同じ回数の反復でシャッフルされていない入力データと比較して、はるかに良い結果が得られることがわかりました。例として、[-1,1] の間の入力範囲の "Square" 関数を合計 100 ポイントと 500 回の反復で学習するためにネットワークをトレーニングしています。したがって、トレーニングポイントの合計は 100*500 になり、これらすべてのトレーニングポイントをシャッフルすると、システムのパフォーマンスが大幅に向上します。

誰かがその背後にある数学を示唆してもらえますか? 入力のシャッフルのパフォーマンスが向上するのはなぜですか? または、トレーニングの確率論がどのように役立つかを説明する参考文献の提案。

ありがとう。

score 0 · Accepted Answer

SGD は、検出された各サンプルに基づいて大幅な調整を行い、その後、残りのサンプルをさらに細かく調整することで機能するため、サンプルの順序は重要です。これは、モデルが最初の数回の反復で正または負のサンプルのみに遭遇している場合に特に当てはまります。

machine-learning - シャッフル データを使用した回帰の確率的勾配降下法は、シャッフルされていない場合よりも優れたパフォーマンスを発揮します。なんで？

2 に答える 2

Related

Reference

machine-learning - シャッフルデータを使用した回帰の確率的勾配降下法は、シャッフルされていない場合よりも優れたパフォーマンスを発揮します。なんで？