artificial-intelligence - グリッドの世界でのポリシー反復の背後にある直感

Question

割り当てにポリシー反復と値反復を使用する MDP エージェントを考え出し、そのパフォーマンスを状態の効用値と比較することになっています。

MDP エージェントは、遷移の確率と報酬を知っている場合、移動するアクションをどのように知るのでしょうか?

私の理解では、MDP エージェントはポリシーの反復を実行し、ポリシーが与えられると、終了状態に到達する間に獲得した報酬を計算します。このポリシーは、値反復アルゴリズムから開発されています。

ポリシーの反復がどのように機能するかについて、誰かが直感を提供できますか?

score 0 · Accepted Answer

ポリシーの反復アルゴリズムと値の反復アルゴリズムが何であるかを既に理解していると仮定すると、エージェントは、各状態の最高値を持つアクションを選択することによって、新しいポリシーを構築するだけです。

アクションの値は、次の状態に到達する確率 * (次の状態の値 + 遷移の報酬) の合計であり、そのアクションで可能なすべての次の状態にわたっています。

1 に答える 1