ほとんどのMDP問題に対処するためのパターンがありますが、おそらく問題の説明からいくつかの情報を省略していると思います。おそらく、到達しようとしている状態、またはエピソードの終了方法(グリッドの端から逃げると発生します)。私はあなたの質問に答えるために最善を尽くしましたが、私はこれらのタイプの問題に対処するために使用するプロセスに入門書を追加しました。
第一に、効用は、与えられた状態にどれだけなりたいかを示すかなり抽象的な尺度です。単純なヒューリスティック(ユークリッド距離またはマンハッタン距離)で効用を測定する場合でも、同等の効用を持つ2つの状態を持つことは間違いなく可能です。この場合、効用値と報酬は交換可能であると想定しています。
長期的には、これらのタイプの問題の目的は、期待される(長期的な)報酬をどのように最大化するかということです。学習率であるガンマは、現在の状態と最終的に行きたい場所をどれだけ重視するかを制御します。事実上、ガンマは、「このタイムステップで私に最も利益をもたらすことを行う」からのスペクトルと考えることができます。もう一方の極端な例では、「すべてのオプションを調べて、最適なオプションに戻ってください」。強化学習に関する本のサットンとバルトは、これがどのように機能するかについていくつかの本当に素晴らしい説明をしています。
始める前に、質問に戻って、次の質問に自信を持って答えられることを確認してください。
- 状態とは何ですか?州はいくつありますか?
- アクションとは何ですか?アクションはいくつありますか?
- 状態uで開始し、アクションaを適用した場合、新しい状態vに到達する確率はどのくらいですか?
では、質問への答えは?
- 状態はベクトル(x、y)です。グリッドは5x5なので、25の状態があります。
- {E、N、S、W}の4つの可能なアクションがあります
- 適切なアクションを適用した後、隣接する状態に正常に到達する確率は0.7、移動しない確率(同じ状態にとどまる確率は0.3)です。(0,0)が左上のセルで、(4,4)が右下のセルであるとすると、次の表は、考えられるすべての遷移の小さなサブセットを示しています。
状態アクションの開始最終状態の確率
-------------------------------------------------- -
(0,0)E(0,0)0.3
(0,0)E(1,0)0.7
(0,0)E(2,0)0
..。
(0,0)E(0,1)0
..。
(0,0)E(4,4)0
(0,0)N(0,0)0.3
..。
(4,4)W(3,4)0.7
(4,4)W(4,4)0.3
これがこの問題に意味があることをどのように確認できますか?
- テーブルに適切な数のエントリがあることを確認してください。5 x 5グリッドには、25の状態と4つのアクションがあるため、テーブルには100のエントリが必要です。
- 開始状態とアクションのペアについて、発生する確率がゼロ以外のエントリが2つだけであることを確認してください。
編集。ターゲット状態への遷移確率の要求に応答します。以下の表記は、
- vは最終状態です
- uはソース状態です
- aはアクションであり、言及されていない場合、適用されたアクションは関連性がないことを意味します。
P(v =(3,3)| u =(2,3)、a = E)= 0.7
P(v =(3,3)| u =(4,3)、a = W)= 0.7
P(v =(3,3)| u =(3,2)、a = N)= 0.7
P(v =(3,3)| u =(3,4)、a = S)= 0.7
P(v =(3,3)| u =(3,3))= 0.3