割り当てにポリシー反復と値反復を使用する MDP エージェントを考え出し、そのパフォーマンスを状態の効用値と比較することになっています。
MDP エージェントは、遷移の確率と報酬を知っている場合、移動するアクションをどのように知るのでしょうか?
私の理解では、MDP エージェントはポリシーの反復を実行し、ポリシーが与えられると、終了状態に到達する間に獲得した報酬を計算します。このポリシーは、値反復アルゴリズムから開発されています。
ポリシーの反復がどのように機能するかについて、誰かが直感を提供できますか?