問題タブ [markov-decision-process]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
artificial-intelligence - 見た遷移から MDP を決定する
マルコフ決定過程では、次の遷移が見られます。それを決定してみてください
状態、遷移、報酬、および遷移の確率を見つける必要があります。確率以外はすべて解決しましたが、それらの計算方法がわかりません 誰かが助けてくれるなら、どこから始めればよいかを知りたいだけです
artificial-intelligence - MonteCarloTreeSearch は、この問題サイズ (大きなアクション/状態空間) に適した方法ですか?
t=1,...,40 周期の有限地平線決定問題について研究しています。時間ステップ t ごとに、エージェントが状態 s(t) ∈ S(t) にある間、(唯一の) エージェントはアクション a(t) ∈ A(t) を選択する必要があります。状態 s(t) で選択されたアクション a(t) は、次の状態 s(t+1) への遷移に影響します。したがって、有限地平線マルコフ決定問題があります。
私の場合、A(t)=A および S(t)=S が成り立ち、A のサイズは 6 000 000 で、S のサイズは 10^8 です。さらに、遷移関数は確率的です。
私はモンテカルロ木探索 (MCTS) の理論に比較的慣れていないので、自問自答します: MCTS は私の問題に適した方法ですか (特に、A と S のサイズが大きく、確率的遷移関数が原因でしょうか?)
私はすでに MCTS に関する多くの論文を読みました (たとえば、progressiv widening と double progressiv widening は非常に有望に思えます) が、MCTS を同様の問題に適用した経験について、またはこの問題に対する適切な方法について教えてくれる人がいるかもしれません (大きな状態で) /アクション空間と確率的遷移関数)。
artificial-intelligence - UNO を POMDP としてモデル化する方法
UNO カード ゲームを Partially Observable Markov Decision Processes(POMDPs) としてモデル化しようとしています。私は少し調査を行い、状態はカードの数になり、アクションはプレイするか、目に見えないカードデッキからカードを選ぶかのいずれかになるという結論に達しました. 状態遷移と観測モデルの定式化に苦労しています。その観測モデルは過去の行動と観測(履歴)に依存すると思いますが、そのためにはマルコフ仮定を緩和する必要があります。マルコフ仮定を緩和することがより良い選択であるかどうかを知りたいですか? さらに、状態と観測モデルをどのように正確に形成する必要がありますか。よろしくお願いします。