6

エージェントが xx 軸と yy 軸に沿って移動できる部屋にいるとします。各ポイントで、彼は上下左右に移動できます。したがって、状態空間は (x, y) で定義でき、各ポイントでのアクションは (上、下、右、左) で与えられます。エージェントが壁にぶつかるアクションを行うたびに、-1 の負の報酬を与え、エージェントを以前の状態に戻すと仮定しましょう。部屋の中央に人形を見つけた場合、+10 の報酬を獲得します。

特定の状態/アクション ペアの QValue を更新すると、新しい状態で実行できるアクションを確認し、そこに到達できる最大 QValue を計算するので、Q(s, a) を更新できます。現在の状態/アクションの値。これが意味することは、ポイント (10, 10) に目標状態がある場合、その周囲のすべての状態の QValue は、遠くなるにつれて少しずつ小さくなるということです。さて、壁との関係では、同じことが真実ではないように思えます。

エージェントが壁にぶつかったとき (彼が位置 (0, 0) にいてアクション UP を行ったと仮定しましょう)、彼はその状態/アクションに対して -1 の報酬を受け取り、したがって -1 の QValue を取得します。

ここで、後で私が状態 (0, 1) にいて、状態 (0,0 0) の他のすべてのアクションがゼロであると仮定すると、アクション LEFT の (0, 1) の QValue を計算すると、次のように計算されます。それは次の方法です。

Q([0,1], LEFT) = 0 + gamma * (max { 0, 0, 0, -1 } ) = 0 + 0 = 0

これは、壁にぶつかっても近くの状態に伝播しないということです。正の報酬状態がある場合とは逆です。

私の視覚では、これは奇妙に思えます。最初は、負の報酬を与える状態/アクションのペアを見つけることは、正の報酬と同じくらい学習的に優れていると考えていましたが、上記の例からすると、そのステートメントは当てはまらないようです。アルゴリズムには、負の報酬よりも正の報酬をはるかに考慮に入れるバイアスがあるようです。

これは QLearning の予想される動作ですか? 悪い報酬は、肯定的な報酬と同じくらい重要であるべきではありませんか? これに対する「回避策」とは何ですか?

4

3 に答える 3

6

否定的なフィードバックは、特定の動きから得られる唯一の結果である場合にのみ伝播します。

これが故意か意図的でないかはわかりません。

于 2009-12-04T00:59:52.587 に答える