問題タブ [dqn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
497 参照

python - Deep Q - Python での Tensorflow を使用した Cartpole の学習

StackOverflow で議論されている同様のトピックがたくさんあることは知っていますが、StackOverflow とインターネットの両方でかなり多くの調査を行いましたが、解決策を見つけることができませんでした。openAI ジムのカートポール ゲーム: OpenAI Gym Cartpoleを解決するために、古典的なディープ Q ラーニング アルゴリズムを実装しようとしています。

まず、ランダムな重みを生成するエージェントを作成しました。結果を以下のグラフに示します。 エージェントはランダム検索を使用してカートポールを打ち負かします

驚くべきことに、エージェントは、各エピソードで (-1.0 から 1.0) までの 4 つのランダムな均一な重み [w1、w2、w3、w4] を生成するだけで、多くのエピソードで 200 ステップ (最大) に到達することができました。

そこで、重み 4 つとバイアス 2 つだけの単純な DQN を実装し、エージェントにこのゲームを時間の経過とともに学習させることにしました。重みは最初にランダムに初期化され、エージェントがステップを実行するときにバックプロパゲーションを使用して重みが更新されます。

Epsilon Greedy 戦略を使用して、エージェントが最初に探索し、後で Q 値を利用できるようにしました。ただし、結果はランダム エージェントに比べて期待外れです。

ここに画像の説明を入力

多くのパラメーターとさまざまなアーキテクチャを調整しようとしましたが、結果はそれほど変わりません。だから、私の質問は次のとおりです。

質問: DQN の実装が間違っていたのでしょうか、それとも単純な DQN ではカートポールに勝てないのでしょうか? あなたの経験は何ですか?損失 (エラー) は減りますが、良い解決策を保証するものではありません。前もって感謝します。

0 投票する
1 に答える
605 参照

tensorflow - Using tensorboard with a DQN algorithm

For reinforcement learning I have read that tensorboard isn't ideal since it gives the input of per episode and/or step. Since in reinforcement learning there are thousands of steps, it doesn't give us an overview of the content. I saw this modified tensorboard class here: https://pythonprogramming.net/deep-q-learning-dqn-reinforcement-learning-python-tutorial/

the class:

and I would like to make it work with this layer:

But I have yet to get it to work. Anyone who has worked with tensorboard before, do you know how to setup this up? Any insight is greatly appreciated.