問題タブ [keras-rl]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
218 参照

python - 上書きされたクラスメソッドからのKeras RL実装エラー

openai gym でタクシー問題を解決するために RL エージェントに取り組んできました。

私は keras-rl から DQNAgent を選びました。ここの例に従っています:

https://tiewkh.github.io/blog/deepqlearning-openaitaxi/

1つのバッチの大部分で機能するようです。

次に、次のエラー メッセージが表示されます。

デバッグ マジックなしで実行すると、少し異なるエラー メッセージが表示されます。

私の DQNAgent では、backwards メソッドが上書きされているため、なぜこれが表示されるのかわかりません。

デバッガーを使って調べてみましたが、これら 2 つのエラー メッセージ以外はうまくいきませんでした。このようなエラーをスローする可能性がある、オーバーライドする必要がある他のメソッドはありますか?

0 投票する
0 に答える
302 参照

python - Keras-RL: ValueError: 確率に policy.py に NaN が含まれています

openai gym で環境を作って、今いろいろな設定やエージェントを試しています。dqn_cartpole の例 ( https://github.com/wau/keras-rl2/blob/master/examples/dqn_cartpole.py ) のエージェントから始めました。ある時点で、NaN 値が原因で q 値の計算が失敗しました。以下の設定にトレースバックと小さな変更を追加しました。

dqn_cartpole の例と比較した私の設定:

Dense Layer: 16,16,16 の代わりに 256, 64, 16 を選びました

• エラー前の最後のトレーニング エピソード: 497280/500000: エピソード: 2960、期間: 13.926 秒、エピソード ステップ: 168、1 秒あたりのステップ数: 12、エピソード報酬: 47056.579、平均報酬: 280.099 [-10229.000, 8998.000]、平均アクション: 45.298 [0.000, 96.000]、損失: 60564033920565248.000000、mae: 3245972224.000000、mean_q: 3358134016.000000

を使用している場合、このエラーは発生しませんEpsGreedyQPolicy。NaN が生成される理由とそれを回避する方法を理解する可能性はありますか?