問題タブ [q-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
311 参照

reinforcement-learning - Q ラーニングでは、実際に Q 値を取得するにはどうすればよいでしょうか? Q(s,a) は永遠に続きませんか?

強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))永遠に続くのではないか?Q(s',a')1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか?

0 投票する
0 に答える
469 参照

reinforcement-learning - Q学習アルゴリズム

こんにちは、q-learning を使用して次の問題をモデル化しました。エージェントのセットは、データをアップロードするために 2 つのアクセス ポイント (AP) 状態にアクセスできます。S={1,2} AP1 または 2 への接続を参照する状態のセット。A={remain, change}。シミュレーションの合計期間中、エージェントは 2 つの AP にアクセスできると想定しています。目標は、シミュレーション中に最大のデータをアップロードすることです。報酬は時間に依存する関数であり、次のように定義されます: R(t)= alpha*T+b、ここで T は時間間隔の長さで、b は時間とともに変化します。

この状況で、終了条件を事前定義された値へのqテーブルの収束として定義することは本当ですか? 搾取段階をどのように表現できますか (最終目標として定義されたステップがないため)?

よろしくお願いいたします。

0 投票する
1 に答える
533 参照

machine-learning - 確率的勾配降下法と Q 学習でのミニバッチ処理

背景(省略可):

ニューラル ネットワークのトレーニングでは、通常、確率的勾配降下法 (SGD) が使用されます。トレーニング セットのすべてのメンバーでネットワークの誤差を計算し、勾配降下法によって重みを更新する (つまり、各重みが更新されるまでに長時間待機することを意味する) 代わりに、それぞれを使用します。メンバーの最小バッチの時間を測定し、結果のエラーを真のエラーの偏りのない推定として扱います。

強化学習では、(ディープ Q ラーニングのように) Q ラーニングがニューラル ネットワークで実装されることがあり、経験リプレイが使用されます。エージェントの前の (状態、アクション、報酬) によって重みを更新する代わりに、次を使用して更新します。古い (状態、アクション、報酬) のランダム サンプルのミニバッチ。これにより、後続の更新間に相関関係がなくなります。

質問:

次のアサーションは正しいですか?: SGD でミニバッチ処理を行う場合、ミニバッチ全体に対して 1 つの重み更新が実行されますが、Q ラーニングでミニバッチ処理を行う場合、ミニバッチの各メンバーごとに 1 つの重み更新が実行されますか?

もう一つ:

この質問は、機械学習に関する概念的な質問であり、プログラミングとは何の関係もないCross Validatedの方が適していると思いますが、Stackoverflow で強化学習のタグが付けられた質問を見て、この質問をすることが規範的であると結論付けましたここで、私が得ることができる応答の数はより多くなります。

0 投票する
1 に答える
670 参照

reinforcement-learning - Qラーニングにおける探索と活用

Q 学習アルゴリズムでは、アクションの選択は現在の状態と Q 行列の値に依存します。これらの Q 値が探索段階でのみ更新されるのか、それとも活用段階でも変化するのかを知りたいです。

0 投票する
1 に答える
655 参照

machine-learning - 探査率が低下する ϵ-貪欲な政策

Q-learning で ϵ-greedy ポリシーの行動選択ポリシーを実装したいと考えています。ここで多くの人が使ってきたのは、探索速度を下げるための式に従って、

ɛ = e^(-エン)

n = エージェントの年齢

E = 利用パラメータ

しかし、この「n」が何を意味するのかよくわかりません。特定の状態とアクションのペアへの訪問回数ですか、それとも反復回数ですか?

どうもありがとう