algorithm - Actor-Critic 強化学習における行動制約

Question

4 つのアクション (上、下、左、右) が可能な単純なグリッドの世界に自然な俳優批評家のRL アルゴリズムを実装しました。左右。

さて、この領域では上下と左右が正反対であり、エージェントにこの事実をどうにかして認識させることができれば、学習が改善されるのではないかと感じています。アクションのアクティベーションが計算された後に単純にステップを追加することを考えていました (たとえば、右のアクティベーションから左のアクティベーションを差し引く、またはその逆)。ただし、これが一般的なケースで収束の問題を引き起こすことを恐れています。

制約を追加することは、この分野では一般的な要望であるように思われるので、この目的のために使用すべき標準的な方法を誰かが知っているかどうか疑問に思っていました。そうでない場合、私のアドホックなアプローチが合理的であるかどうか。

前もって感謝します！

score 2 · Accepted Answer

可能であれば、アクションの選択にヒューリスティックを使用することは避けたいと思います。トレーニングにヒューリスティックを追加したい場合は、報酬関数の計算で行います。そうすることで、エージェントはヒューリスティックを学習し、近似する価値関数の一部として具現化します。

振動動作について、動かない動作（つまり、同じ場所に留まる動作）は許容されますか？

最後に、一般的なケースと収束の保証に違反することについてあまり心配しません。これらは、応用作業を行う際のガイドラインにすぎません。

algorithm - Actor-Critic 強化学習における行動制約

1 に答える 1

Related

Reference