9

ガンマ値が大きいか小さいかによって、アルゴリズムにどのような違いが生じますか? 私の視覚では、0 でも 1 でもない限り、まったく同じように動作するはずです。反対に、どのガンマを選択しても、Qvalues は非常に速くゼロに近づくようです (簡単なテストで 10^-300 のオーダーの値を取得しています)。通常、人々はどのように Qvalues をプロットしますか (私は (x, y, その状態に最適な QValue) をプロットしています) その問題を考えると?

また、Q ラーニングの更新関数にアルファ パラメーターを使用する理由がわかりません。これは基本的に、Q 値関数に対して行う更新の大きさを設定します。通常、時間の経過とともに減少するという考えがあります。それが時間の経過とともに減少することに何の関心がありますか?最初の更新値は、1000 エピソード以降よりも重要である必要がありますか?

また、エージェントが貪欲なアクションを実行したくない場合に毎回状態空間を探索するための良いアイデアは、まだ QValue がゼロの状態を探索することです (これは、少なくともほとんどの場合、これまでにない状態)、しかし、どの文献にも言及されていません。これには欠点がありますか?これは(少なくともいくつかの)一般化関数では使用できないことを知っています。

他のアイデアは、訪問した状態/アクションのテーブルを保持し、その状態で以前に試行された回数が少ないアクションを実行しようとすることです。もちろん、これは比較的小さな状態空間でのみ実行できます (私の場合は間違いなく可能です)。

探索プロセスの後半での 3 つ目のアイデアは、最適な qvalue を探すために選択されたアクションだけでなく、考えられるすべてのアクションとその状態の内部を調べてから、その状態の他のものなどを調べることです。

これらの質問は無関係であることは承知していますが、以前にこれに取り組んだことがあり、(おそらく) 苦労したことのある人の意見を聞きたいです。

4

3 に答える 3

16

強化学習マスター候補から:

アルファは学習率です。報酬または遷移関数が確率的 (ランダム) である場合、アルファは時間とともに変化し、無限大でゼロに近づきます。これは、内積 (T(transition)*R(reward)) の予想される結果を概算することと関係があります。これは、2 つのうちの 1 つまたは両方がランダムな動作をする場合です。

その事実に注意することが重要です。

ガンマは将来の報酬の値です。学習にかなりの影響を与える可能性があり、動的または静的な値にすることができます。1 に等しい場合、エージェントは現在の報酬と同じくらい将来の報酬を評価します。これは、10 回のアクションで、エージェントが何か良いことをした場合、このアクションを直接実行するのと同じくらい価値があることを意味します。そのため、高いガンマ値では学習がうまく機能しません。

逆に、ガンマがゼロの場合、エージェントは即時報酬のみを評価し、非常に詳細な報酬関数でのみ機能します。

また、探索行動に関しては...実際にはこれに関する文献がたくさんあります。あなたのアイデアはすべて 100% 試されました。より詳細な検索をお勧めします。また、意思決定理論と「ポリシーの改善」をグーグルで検索することもお勧めします。

アルファに関するメモを追加するだけです。特定のステート アクション コンボ SA に対して 1 または 0 を吐き出す報酬関数があると想像してください。SA を実行するたびに、1 または 0 が得られます。アルファを 1 のままにすると、Q 値は 1 またはゼロになります。0.5 の場合、+0.5 または 0 の値が得られ、関数は常に 2 つの値の間で永遠に振動します。ただし、アルファを 50 パーセントずつ減らすたびに、このような値が得られます。(報酬が 1,0,1,0,... であると仮定します)。あなたの Q 値は最終的に 1,0.5,0.75,0.9,0.8,... となり、最終的には 0.5 近くに収束します。無限大では 0.5 になり、これは確率論的な意味で期待される報酬です。

于 2013-08-31T00:35:26.567 に答える
-3

私は以前にこのようなシステムで作業したことがないので、どれだけ役立つかわかりませんが...

ガンマは、将来の報酬を楽しみにするエージェントの傾向の尺度です。値が小さいほど、結果の状態に関係なく、エージェントは最大の報酬でアクションを実行する傾向があります。より大きなガンマを持つエージェントは、大きな報酬への長い道のりを学びます。ゼロに近づいているすべての Q 値について、ガンマ = 0 の非常に単純な状態マップ (たとえば、1 つの状態と 2 つのアクション) を試しましたか? それはすぐにQ=rewardに近づくはずです。

アルファを減らすという考え方は、Q 値の振動を抑えることです。これにより、エージェントは乱暴な若者の後に安定したパターンに落ち着くことができます。

状態空間を探索していますか? エージェントにすべてを試してもらいますか? シミュレーションのポイントでない限り、エージェントが実際に学習の一連の行動に従う必要はありません。最適な行動パターンを見つけることだけが目的の場合は、パスに沿って最も高い Q だけでなく、すべての Q を調整します。

于 2009-12-07T21:27:46.283 に答える