問題タブ [q-learning]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

418 問題

0 投票する

1 に答える

311 参照

reinforcement-learning - Q ラーニングでは、実際に Q 値を取得するにはどうすればよいでしょうか? Q(s,a) は永遠に続きませんか?

強化学習について勉強しているのですが、Q値の計算方法がわかりません。ベルマン方程式を使えばQ(s,a) = r + γ*max(Q(s',a'))永遠に続くのではないか？Q(s',a')1 タイムステップの Q 値がさらに必要であり、それが延々と続くからです。それはどのように終わりますか？

reinforcement-learning q-learning

user5702166

2016-12-03T19:26:40.410

0 投票する

0 に答える

469 参照

reinforcement-learning - Q学習アルゴリズム

こんにちは、q-learning を使用して次の問題をモデル化しました。エージェントのセットは、データをアップロードするために 2 つのアクセスポイント (AP) 状態にアクセスできます。S={1,2} AP1 または 2 への接続を参照する状態のセット。A={remain, change}。シミュレーションの合計期間中、エージェントは 2 つの AP にアクセスできると想定しています。目標は、シミュレーション中に最大のデータをアップロードすることです。報酬は時間に依存する関数であり、次のように定義されます: R(t)= alpha*T+b、ここで T は時間間隔の長さで、b は時間とともに変化します。

この状況で、終了条件を事前定義された値へのqテーブルの収束として定義することは本当ですか? 搾取段階をどのように表現できますか (最終目標として定義されたステップがないため)?

よろしくお願いいたします。

reinforcement-learning q-learning

2016-12-08T15:09:43.413

0 投票する

1 に答える

533 参照

machine-learning - 確率的勾配降下法と Q 学習でのミニバッチ処理

背景（省略可）：

ニューラルネットワークのトレーニングでは、通常、確率的勾配降下法 (SGD) が使用されます。トレーニングセットのすべてのメンバーでネットワークの誤差を計算し、勾配降下法によって重みを更新する (つまり、各重みが更新されるまでに長時間待機することを意味する) 代わりに、それぞれを使用します。メンバーの最小バッチの時間を測定し、結果のエラーを真のエラーの偏りのない推定として扱います。

強化学習では、(ディープ Q ラーニングのように) Q ラーニングがニューラルネットワークで実装されることがあり、経験リプレイが使用されます。エージェントの前の (状態、アクション、報酬) によって重みを更新する代わりに、次を使用して更新します。古い (状態、アクション、報酬) のランダムサンプルのミニバッチ。これにより、後続の更新間に相関関係がなくなります。

質問：

次のアサーションは正しいですか?: SGD でミニバッチ処理を行う場合、ミニバッチ全体に対して 1 つの重み更新が実行されますが、Q ラーニングでミニバッチ処理を行う場合、ミニバッチの各メンバーごとに 1 つの重み更新が実行されますか?

もう一つ：

この質問は、機械学習に関する概念的な質問であり、プログラミングとは何の関係もないCross Validatedの方が適していると思いますが、Stackoverflow で強化学習のタグが付けられた質問を見て、この質問をすることが規範的であると結論付けましたここで、私が得ることができる応答の数はより多くなります。

machine-learning neural-network reinforcement-learning q-learning

2016-12-24T21:41:59.070

0 投票する

1 に答える

670 参照

reinforcement-learning - Qラーニングにおける探索と活用

Q 学習アルゴリズムでは、アクションの選択は現在の状態と Q 行列の値に依存します。これらの Q 値が探索段階でのみ更新されるのか、それとも活用段階でも変化するのかを知りたいです。

reinforcement-learning q-learning

2017-01-04T08:43:25.657

0 投票する

1 に答える

655 参照

machine-learning - 探査率が低下する ϵ-貪欲な政策

Q-learning で ϵ-greedy ポリシーの行動選択ポリシーを実装したいと考えています。ここで多くの人が使ってきたのは、探索速度を下げるための式に従って、

ɛ = e^(-エン)

n = エージェントの年齢

E = 利用パラメータ

しかし、この「n」が何を意味するのかよくわかりません。特定の状態とアクションのペアへの訪問回数ですか、それとも反復回数ですか?

どうもありがとう

machine-learning greedy reinforcement-learning q-learning

2017-02-20T04:18:17.603

1 2 3 4 5 6 7 8 9 10

問題タブ [q-learning]

reinforcement-learning - Q ラーニングでは、実際に Q 値を取得するにはどうすればよいでしょうか? Q(s,a) は永遠に続きませんか?

reinforcement-learning - Q学習アルゴリズム

machine-learning - 確率的勾配降下法と Q 学習でのミニバッチ処理

背景（省略可）：

質問：

もう一つ：

reinforcement-learning - Qラーニングにおける探索と活用

machine-learning - 探査率が低下する ϵ-貪欲な政策

Reference