問題タブ [q-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
reinforcement-learning - Q ラーニングでは、実際に Q 値を取得するにはどうすればよいでしょうか? Q(s,a) は永遠に続きませんか?
強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))
永遠に続くのではないか?Q(s',a')
1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか?
reinforcement-learning - Q学習アルゴリズム
こんにちは、q-learning を使用して次の問題をモデル化しました。エージェントのセットは、データをアップロードするために 2 つのアクセス ポイント (AP) 状態にアクセスできます。S={1,2} AP1 または 2 への接続を参照する状態のセット。A={remain, change}。シミュレーションの合計期間中、エージェントは 2 つの AP にアクセスできると想定しています。目標は、シミュレーション中に最大のデータをアップロードすることです。報酬は時間に依存する関数であり、次のように定義されます: R(t)= alpha*T+b、ここで T は時間間隔の長さで、b は時間とともに変化します。
この状況で、終了条件を事前定義された値へのqテーブルの収束として定義することは本当ですか? 搾取段階をどのように表現できますか (最終目標として定義されたステップがないため)?
よろしくお願いいたします。
machine-learning - 確率的勾配降下法と Q 学習でのミニバッチ処理
背景(省略可):
ニューラル ネットワークのトレーニングでは、通常、確率的勾配降下法 (SGD) が使用されます。トレーニング セットのすべてのメンバーでネットワークの誤差を計算し、勾配降下法によって重みを更新する (つまり、各重みが更新されるまでに長時間待機することを意味する) 代わりに、それぞれを使用します。メンバーの最小バッチの時間を測定し、結果のエラーを真のエラーの偏りのない推定として扱います。
強化学習では、(ディープ Q ラーニングのように) Q ラーニングがニューラル ネットワークで実装されることがあり、経験リプレイが使用されます。エージェントの前の (状態、アクション、報酬) によって重みを更新する代わりに、次を使用して更新します。古い (状態、アクション、報酬) のランダム サンプルのミニバッチ。これにより、後続の更新間に相関関係がなくなります。
質問:
次のアサーションは正しいですか?: SGD でミニバッチ処理を行う場合、ミニバッチ全体に対して 1 つの重み更新が実行されますが、Q ラーニングでミニバッチ処理を行う場合、ミニバッチの各メンバーごとに 1 つの重み更新が実行されますか?
もう一つ:
この質問は、機械学習に関する概念的な質問であり、プログラミングとは何の関係もないCross Validatedの方が適していると思いますが、Stackoverflow で強化学習のタグが付けられた質問を見て、この質問をすることが規範的であると結論付けましたここで、私が得ることができる応答の数はより多くなります。
reinforcement-learning - Qラーニングにおける探索と活用
Q 学習アルゴリズムでは、アクションの選択は現在の状態と Q 行列の値に依存します。これらの Q 値が探索段階でのみ更新されるのか、それとも活用段階でも変化するのかを知りたいです。
machine-learning - 探査率が低下する ϵ-貪欲な政策
Q-learning で ϵ-greedy ポリシーの行動選択ポリシーを実装したいと考えています。ここで多くの人が使ってきたのは、探索速度を下げるための式に従って、
ɛ = e^(-エン)
n = エージェントの年齢
E = 利用パラメータ
しかし、この「n」が何を意味するのかよくわかりません。特定の状態とアクションのペアへの訪問回数ですか、それとも反復回数ですか?
どうもありがとう