0

マルコフ決定過程では、次の遷移が見られます。それを決定してみてください

 R  A  S′ S

 0  U  C  B
-1  L  E  C
 0  D  C  A
-1  R  E  C
 0  D  C  A
+1  R  D  C
 0  U  C  B
+1  R  D  C

状態、遷移、報酬、および遷移の確率を見つける必要があります。確率以外はすべて解決しましたが、それらの計算方法がわかりません 誰かが助けてくれるなら、どこから始めればよいかを知りたいだけです

4

1 に答える 1

1

stateBの場合、 actionUは常に新しい state になりCます。だから、P(C|B,U)=1(あなたはそれを主張するかもしれませんP(C|B)=1)。P(D|C,R)=2/33 つのケースのうちの 2 つはR、状態でのアクションのC結果としてD.

于 2018-04-21T14:30:59.847 に答える