問題タブ [pytorch]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

16088 問題

0 投票する

1 に答える

1588 参照

reinforcement-learning - pytorch の例での俳優批評家アルゴリズムの背後にある説明?

Pytorch は、actor-critic を使用して OpenAI ジム環境で Cartpole をプレイする良い例を提供します。

https://github.com/pytorch/examples/blob/master/reinforcement_learning/actor_critic.py#L67-L79にあるコードスニペットのいくつかの方程式について混乱しています。

この場合、r と value は何を意味しますか? 彼らは、なぜ r - 値に等しい報酬でアクション空間で REINFORCE を実行するのでしょうか? また、r に一致するように値を設定しようとするのはなぜですか?

ご協力いただきありがとうございます！

reinforcement-learning pytorch

2017-03-06T21:53:02.263

1 2 3 4 5 6 7 8 9 10

問題タブ [pytorch]

reinforcement-learning - pytorch の例での俳優批評家アルゴリズムの背後にある説明?

Reference