7

代替テキストhttp://img693.imageshack.us/img693/724/markov.png

私はここでいくつかの点について少し混乱しています:

  1. 彼が与えられた行動を試みる時間の70%が成功するとはどういう意味ですか?それは、彼がアクションAを実行しようとするたびに、そのアクションAを70%実行し、残りの30%が同じ状態につながるアクションを実行することを意味しますか、それとも彼がいつも実行したかのようになります。アクションAですが、彼がやらないのは30%だけですか?私は自分自身を明確にしていることを願っています:(
  2. 同じユーティリティで複数の連続した状態を持つことはどのように可能ですか?理論的には、効用は常に減少するべきではありません、あなたが報酬のある州から遠く離れているのですか?
  3. 私が上で与えた情報だけを知っているので、割引係数(ガンマ)は何であるかを推測することは可能ですか?はいの場合、どのように?
  4. 州の報酬を計算することは可能ですか?どのように?
4

3 に答える 3

4

ほとんどのMDP問題に対処するためのパターンがありますが、おそらく問題の説明からいくつかの情報を省略していると思います。おそらく、到達しようとしている状態、またはエピソードの終了方法(グリッドの端から逃げると発生します)。私はあなたの質問に答えるために最善を尽くしましたが、私はこれらのタイプの問題に対処するために使用するプロセスに入門書を追加しました。

第一に、効用は、与えられた状態にどれだけなりたいかを示すかなり抽象的な尺度です。単純なヒューリスティック(ユークリッド距離またはマンハッタン距離)で効用を測定する場合でも、同等の効用を持つ2つの状態を持つことは間違いなく可能です。この場合、効用値と報酬は交換可能であると想定しています。

長期的には、これらのタイプの問題の目的は、期待される(長期的な)報酬をどのように最大化するかということです。学習率であるガンマは、現在の状態と最終的に行きたい場所をどれだけ重視するかを制御します。事実上、ガンマは、「このタイムステップで私に最も利益をもたらすことを行う」からのスペクトルと考えることができます。もう一方の極端な例では、「すべてのオプションを調べて、最適なオプションに戻ってください」強化学習に関する本のサットンとバルトは、これがどのように機能するかについていくつかの本当に素晴らしい説明をしています。


始める前に、質問に戻って、次の質問に自信を持って答えられることを確認してください。

  1. 状態とは何ですか?州はいくつありますか?
  2. アクションとは何ですか?アクションはいくつありますか?
  3. 状態uで開始し、アクションaを適用した場合、新しい状態vに到達する確率はどのくらいですか?

では、質問への答えは?

  1. 状態はベクトル(x、y)です。グリッドは5x5なので、25の状態があります。
  2. {E、N、S、W}の4つの可能なアクションがあります
  3. 適切なアクションを適用した後、隣接する状態に正常に到達する確率は0.7、移動しない確率(同じ状態にとどまる確率は0.3)です。(0,0)が左上のセルで、(4,4)が右下のセルであるとすると、次の表は、考えられるすべての遷移の小さなサブセットを示しています。
状態アクションの開始最終状態の確率
-------------------------------------------------- -
(0,0)E(0,0)0.3
(0,0)E(1,0)0.7
(0,0)E(2,0)0
..。
(0,0)E(0,1)0
..。
(0,0)E(4,4)0
(0,0)N(0,0)0.3
..。
(4,4)W(3,4)0.7
(4,4)W(4,4)0.3

これがこの問題に意味があることをどのように確認できますか?

  1. テーブルに適切な数のエントリがあることを確認してください。5 x 5グリッドには、25の状態と4つのアクションがあるため、テーブルには100のエントリが必要です。
  2. 開始状態とアクションのペアについて、発生する確率がゼロ以外のエントリが2つだけであることを確認してください。

編集。ターゲット状態の遷移確率の要求に応答します。以下の表記は、

  • vは最終状態です
  • uはソース状態です
  • aはアクションであり、言及されていない場合、適用されたアクションは関連性がないことを意味します。
P(v =(3,3)| u =(2,3)、a = E)= 0.7
P(v =(3,3)| u =(4,3)、a = W)= 0.7
P(v =(3,3)| u =(3,2)、a = N)= 0.7
P(v =(3,3)| u =(3,4)、a = S)= 0.7
P(v =(3,3)| u =(3,3))= 0.3
于 2010-01-28T09:38:08.803 に答える
1

ad.1)おそらく、ロボットが常に移動しなければならないというわけではありません。つまり、それらの30%は「ああ、今は少し休んでいる」または「移動する力がまったくなかった」です。

于 2010-01-28T08:04:00.390 に答える
0

私はこの問題を有限ホライズンマルコフ決定過程として定式化し、ポリシーの反復によって解決しました。各反復の右側には、各状態の推奨アクションの色分けされたグリッド表現と、元の報酬グリッド/マトリックスがあります。

ステージ4で最終的なポリシー/戦略を確認します。それはあなたの直感に同意しますか?

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ここに画像の説明を入力してください

ここに画像の説明を入力してください

于 2012-04-29T20:28:42.917 に答える