問題タブ [dqn]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
765 参照

python - TensorFlow 2.0 での Dueling DQN の実装

https://arxiv.org/pdf/1511.06581.pdfに基づいて tensorflow 2 を使用して、独自の Dueling DQN を実装しようとしています。実際に Atlantis 環境でトレーニングしていますが、良い結果が得られません ( TD 損失が増加する一方で、ゲームあたりの平均報酬は減少し続けます)。私は論文からロジックを得たと信じていますが、それがネットワークの直接実装によるものなのか、それとも選択したパラメーターによるものなのかはわかりません。

編集: tf.keras.utils.plot_model を使用すると、これが得られます。

0 投票する
2 に答える
5569 参照

python - TypeError: __init__() に必要な位置引数が 1 つありません: NoisyDense クラスを使用する場合は 'units'

モデルにNoisy Netsを実装しようとしています。NoisyDense Classの実装であるコードを GitHub で見つけました。モデル内でこのクラスを使用しました。ここにコード: -

しかし、エラーが発生しました。解決方法がわからないようです。NoisyDense の実装も確認してください。StackOverflow で同様の問題を探しましたが、自分のコードで機能する解決策が見つかりませんでした。また、NoisyDense クラスを呼び出さずに Dense レイヤーを使用した場合も、同じモデルが機能します。トレースバックの Train.py ファイルは、エージェント クラスを呼び出しますが、これ以上重要なことはないと思います。使用されるモデルは Keras モデルで、そのバージョンは 2.3.1 です

0 投票する
0 に答える
102 参照

deep-learning - 深い値のみの強化学習: Q(s,a) の代わりに V(s) をトレーニングしますか?

状態アクション値関数ではなく、状態値関数のみV(s)Q(s,a)を学習することを完全に中心とする、値ベースの (深層) 強化学習 RL アルゴリズムはありますか?

そうでない場合、それはなぜですか、または簡単に実装できますか?

Pytorch、Tensorflow、または RLlib のさらに高レベルなど、Python でも利用可能な実装はありますか

私は尋ねるので

  • 私は、(i) 分散型エージェントに代わって真実を伝えることをうまく奨励し、(ii) 基本的にさまざまなアクターi (異なる達成可能な生理後の状態 s i,t+1に対する V i (s i,t+1 ) についてすべてのアクター i) に対して、エージェントのアクションを定義します。個々のエージェントの観点からは、段階的な学習を伴うマルチエージェントの性質は、トレーニングが終了しない限り、システムが非定常に見えることを意味します。私の問題の Q(s,a) 関数は、すべてのエージェントに基づいて個別のサブ問題を解決することにより、集中型メカニズムがすべてのエージェントの最終的なアクションを容易に導き出すことができる最終値関数 V(s) を学習するよりも大幅に効率的ではありません値。

  • 時間差分学習を使用した典型的な DQN の計算は、結合された Q(s,a) ではなく、V(s) のディープ ネットワークの状態のみの値ベースのトレーニングに自然に適応できるようです。しかし、価値ベースの RL サブドメイン内では、誰もが Q(s,a) の学習に焦点を当てているようであり、私はこれまで純粋に V(s) を学習するアルゴリズムを見つけていません (分析的で深くない伝統的な Bellman を除く)。方程式の動的計画法)。

デュエリング DQN (DDQN) については知っていますが、探しているものとまったく同じではないようです。「少なくとも」DDQN には の個別の学習器がありますV(s)が、全体として、分散型の方法で を容易に学習することを目標としておりQ(s,a)、これは私の場合には役に立たないようです。