問題タブ [sarsa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
algorithm - 短期対長期の報酬のためのグリッド環境での Q ラーニングとサルサ
RL アルゴリズムを適用するために、カスタムのグリッド (7 x 7) 環境を作成しました。特にQラーニングとサルサを選びました。
グリッド環境は、負の報酬 (-100) の状態、最大報酬 (100) の状態、半分の報酬 (50) の 2 つの状態の 3 種類の終了状態で構成されます。
トレーニングの主な目的は、エージェントが負の報酬を伴う状態を回避し、短期の半分の報酬 (50) よりも長期の報酬 (100) を優先することです。
半分報酬の状態がメイン報酬に近い場合、トレーニングされたエージェントは奇妙な動作をしますが、半分報酬の状態がメイン報酬にそれほど近くない場合、両方のアルゴリズムがエージェントを効率的にトレーニングして、メイン報酬のみに移動します。
だから、私が理解していることから、結果は半分報酬状態の位置に基づいています。
Q-learning と Sarsa の両方のハイパーパラメーターは次のとおりです: epsilon=1 (線形関数で徐々に減衰します)、gamma=0.99 (エージェントが主な報酬を学習するには、ガンマが高く、0.9 である必要があることを読みました-0.99 程度)、α=0.1
問題は私の環境でしょうか?どちらのアルゴリズムも半分報酬の状態がなくてもうまく機能するため、私は混乱しています。問題は、報酬が半減している状態がどこにあるかによっては、アルゴリズムがエージェントに長期報酬を選択するように訓練しない場合があることです。
誰かが同様の問題を抱えている場合は、どのように解決したかを共有していただければ幸いです。