問題タブ [sarsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
reinforcement-learning - 線形勾配降下 Sarsa を理解する (Sutton & Barto に基づく)
Sutton & Barto's Bookに基づいて線形勾配降下 Sarsa を実装しようとしています。下の図のアルゴリズムを参照してください。
ただし、アルゴリズムの何かを理解するのに苦労しています:
- w と z の次元は、取られるアクションの数とは無関係ですか? 本では、それらは機能の数に等しい次元を持っているようです。これは、アクションの数に依存しないと言えます。
- アクションごとに aw と az はありますか? また、これが事実であるべきだということを本の中で見ることはできません。
- 上記の 2 つの箇条書きが正しければ、インデックス リスト F_a がアクションにどのように依存するかがわからないため、アクション値関数 q_a がアクションにどのように依存するかがわからない (下の黄色でマークされた行を参照)アルゴリズムで)しかし、アクション値はアクションに依存する必要があります。だから、得られないものがあります...
誰かが私のためにこれを明確にするのを手伝ってくれることを願っています:)
r - RプログラムでgridworldモデルのSARSAコードを取得するにはどうすればよいですか?
スタディ ケースに問題があります。gridworld モデルの強化学習に興味があります。モデルは移動用の 7x7 フィールドの迷路です。フィールドの迷路を考えてみましょう。上、下、左、右(または北、東、南、西)の 4 つの方向があります。したがって、ほとんどのポリシーがあります。壁にぶつかったときに与えられる即時の罰を使用する場合、多くは除外できます。さらに返品禁止の原則を採用すると、通常はさらに少ないアクションが許容されます。多くのポリシーは、ゴールの後の部分のみが異なるか、または同等です。
▼ 状態: 障害物あり ▼ 報酬: s=G の場合は r=1 の場合、そうでない場合は r=0 であり、それ以外の場合は r=-100 ▼ 初期化: Q0(a,s)~N(0,0.01)
このモデルを解決するために R コードを作成しましたが、正しく動作しません。
モデル: 7x7、S: 開始状態、G: 終了状態、O: アクセス可能な状態、X: 壁
したがって、この gridworld モデル (uppon コードではない) のコードを修正する方法を知りたいです。また、SARSA モデルを使用してこのモデルを解決する方法を知りたいです。
machine-learning - SARSA に遷移確率を組み込む
私は C++ で SARSA(lambda) モデルを実装して、DP モデルのいくつかの制限 (DP モデルが必要とする膨大な時間とスペース) を克服しています。 )、スペースが少ないほど、モデルに複雑さを加えることができます。
明示的な遷移確率があり、それらは違いを生みます。では、それらを SARSA モデルにどのように組み込むべきでしょうか?
確率そのものに従って次の状態を選択するだけですか?どうやら SARSA モデルは、確率を使用することを正確に期待していないようです。または、間違った本を読んでいる可能性があります。
PS-アルゴリズムが適切に実装されているかどうかを知る方法はありますか? SARSA との初めての作業。