1

UNO カード ゲームを Partially Observable Markov Decision Processes(POMDPs) としてモデル化しようとしています。私は少し調査を行い、状態はカードの数になり、アクションはプレイするか、目に見えないカードデッキからカードを選ぶかのいずれかになるという結論に達しました. 状態遷移と観測モデルの定式化に苦労しています。その観測モデルは過去の行動と観測(履歴)に依存すると思いますが、そのためにはマルコフ仮定を緩和する必要があります。マルコフ仮定を緩和することがより良い選択であるかどうかを知りたいですか? さらに、状態と観測モデルをどのように正確に形成する必要がありますか。よろしくお願いします。

4

1 に答える 1

1

POMDP では、状態は依然として「完全な真実」(すべてのカードの位置) であるべきであり、遷移は単なるゲームのルール (他のプレイヤーの戦略を含む?!) であると思います。観測は確かに歴史に依存するべきではなく、状態にのみ依存する必要があります。さもなければ、マルコフの仮定に違反しています。POMDP のポイントは、エージェントが履歴を分析することによって現在の状態に関する情報を取得できることです。ただし、これがUNOに当てはまるかどうか、またはどのように当てはまるかはよくわかりません。どのカードがプレイされたか、その順番がわかっている場合でも、履歴を使用して情報を取得できますか? おそらくそうではありません。確かではありませんが、POMDP 用に設計されたソリューションを使用したとしても、このゲームを POMDP と考えるのは意味がないかもしれません。

于 2019-04-25T06:08:32.427 に答える