背景(省略可):
ニューラル ネットワークのトレーニングでは、通常、確率的勾配降下法 (SGD) が使用されます。トレーニング セットのすべてのメンバーでネットワークの誤差を計算し、勾配降下法によって重みを更新する (つまり、各重みが更新されるまでに長時間待機することを意味する) 代わりに、それぞれを使用します。メンバーの最小バッチの時間を測定し、結果のエラーを真のエラーの偏りのない推定として扱います。
強化学習では、(ディープ Q ラーニングのように) Q ラーニングがニューラル ネットワークで実装されることがあり、経験リプレイが使用されます。エージェントの前の (状態、アクション、報酬) によって重みを更新する代わりに、次を使用して更新します。古い (状態、アクション、報酬) のランダム サンプルのミニバッチ。これにより、後続の更新間に相関関係がなくなります。
質問:
次のアサーションは正しいですか?: SGD でミニバッチ処理を行う場合、ミニバッチ全体に対して 1 つの重み更新が実行されますが、Q ラーニングでミニバッチ処理を行う場合、ミニバッチの各メンバーごとに 1 つの重み更新が実行されますか?
もう一つ:
この質問は、機械学習に関する概念的な質問であり、プログラミングとは何の関係もないCross Validatedの方が適していると思いますが、Stackoverflow で強化学習のタグが付けられた質問を見て、この質問をすることが規範的であると結論付けましたここで、私が得ることができる応答の数はより多くなります。