問題タブ [keras-rl]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 上書きされたクラスメソッドからのKeras RL実装エラー
openai gym でタクシー問題を解決するために RL エージェントに取り組んできました。
私は keras-rl から DQNAgent を選びました。ここの例に従っています:
https://tiewkh.github.io/blog/deepqlearning-openaitaxi/
1つのバッチの大部分で機能するようです。
次に、次のエラー メッセージが表示されます。
デバッグ マジックなしで実行すると、少し異なるエラー メッセージが表示されます。
私の DQNAgent では、backwards メソッドが上書きされているため、なぜこれが表示されるのかわかりません。
デバッガーを使って調べてみましたが、これら 2 つのエラー メッセージ以外はうまくいきませんでした。このようなエラーをスローする可能性がある、オーバーライドする必要がある他のメソッドはありますか?
python - Keras-RL: ValueError: 確率に policy.py に NaN が含まれています
openai gym で環境を作って、今いろいろな設定やエージェントを試しています。dqn_cartpole の例 ( https://github.com/wau/keras-rl2/blob/master/examples/dqn_cartpole.py ) のエージェントから始めました。ある時点で、NaN 値が原因で q 値の計算が失敗しました。以下の設定にトレースバックと小さな変更を追加しました。
dqn_cartpole の例と比較した私の設定:
Dense Layer: 16,16,16 の代わりに 256, 64, 16 を選びました
• エラー前の最後のトレーニング エピソード: 497280/500000: エピソード: 2960、期間: 13.926 秒、エピソード ステップ: 168、1 秒あたりのステップ数: 12、エピソード報酬: 47056.579、平均報酬: 280.099 [-10229.000, 8998.000]、平均アクション: 45.298 [0.000, 96.000]、損失: 60564033920565248.000000、mae: 3245972224.000000、mean_q: 3358134016.000000
を使用している場合、このエラーは発生しませんEpsGreedyQPolicy
。NaN が生成される理由とそれを回避する方法を理解する可能性はありますか?