4 つのアクション (上、下、左、右) が可能な単純なグリッドの世界に自然な俳優批評家のRL アルゴリズムを実装しました。左右。
さて、この領域では上下と左右が正反対であり、エージェントにこの事実をどうにかして認識させることができれば、学習が改善されるのではないかと感じています。アクションのアクティベーションが計算された後に単純にステップを追加することを考えていました (たとえば、右のアクティベーションから左のアクティベーションを差し引く、またはその逆)。ただし、これが一般的なケースで収束の問題を引き起こすことを恐れています。
制約を追加することは、この分野では一般的な要望であるように思われるので、この目的のために使用すべき標準的な方法を誰かが知っているかどうか疑問に思っていました。そうでない場合、私のアドホックなアプローチが合理的であるかどうか。
前もって感謝します!