問題タブ [sarsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 適格性追跡アルゴリズム、更新順序
Silver et al (2012) "Temporal-Difference Search in Computer Go"を読んで、適格性トレース アルゴリズムの更新順序を理解しようとしています。この論文のアルゴリズム 1 と 2 では、適格性トレースを更新する前に重みが更新されます。この順序は正しいのだろうか(アルゴリズム1の11行目と12行目、アルゴリズム2の12行目と13行目)。の極端なケースを考えるとlambda=0
、パラメーターは初期状態とアクションのペアで更新されません (e
はまだ 0 であるため)。したがって、順序が逆になる可能性があるとは思えません。
誰かがポイントを明確にすることができますか?
この論文は強化学習領域を学ぶ上で非常に参考になると思うので、この論文を詳細に理解したいと思います。
この質問をするのに適したプラットフォームがあれば、それも教えてください。
c# - Sarsa を Accord.NET に保存できません
私は Unity と Accord.Net にかなり慣れていませんが、現在 Unity で小さなゲームを作成しており、強化学習を使って何ができるかを見て、それをより面白くすることにしました。サルサを救えないことを除けば、すべて順調に進んでいます。「SerializationException: Type 'Accord.MachineLearning.Sarsa' in Assembly 'Accord.MachineLearning, Version=3.8.0.0, Culture=neutral is not marked as serializable.」というエラーが表示され続けます。
この問題は、github で以前に言及されています: Github/Accord.NET-SarsaNotSerializable。問題は修正されたと書かれており、適切に機能させる方法の例も含まれています. 例のように実行しようとしましたが、それでも同じエラーが発生します。
私は使用してみました:
- Serializer.Save(sarsa, パス)
- sarsa.Save(パス)
- Serialzer.Save(sarsa, stream) (上記の github の例から)
他の誰かが以前にこの問題を経験したことがあるかどうか疑問に思っていますか? 何か不足しているのか、それとも sarsa をシリアル化できるように更新したことがないのか、よくわかりません。
tensorflow - テンソルフローによる SARSA 実装
現在、強化学習の概念を学ぼうとしています。これにより、テンソルフローを使用してカートポールの例に SARSA アルゴリズムを実装しようとしました。私のアルゴリズムを、q 値関数に線形近似関数を使用するアルゴリズムと比較したところ、私のアルゴリズムは非常に似ていることがわかりました。残念ながら、学習の成功はかなり限られているため、私の実装は間違っているか非効率的です。私が何か間違ったことをしているのか、それが何であるかを教えてくれる人はいますか? 私の実装のコードは次のとおりです。