mdp - 値の反復ではなくポリシーの反復を使用する場合

Question

私は現在、マルコフ決定過程に対する動的計画法ソリューションを研究しています。私は VI と PI について十分に把握できていると感じており、PI の動機はかなり明確です (必要なのは正しいポリシーだけである場合、正しい状態ユーティリティに収束することは不必要な作業のように思えます)。ただし、私の実験では、実行時間に関して PI が有利であることは示されていません。状態空間のサイズと割引係数に関係なく、一貫して時間がかかるようです。

これは、実装 (私はBURLAPライブラリを使用しています) によるものか、私の側での不十分な実験が原因である可能性があります。ただし、傾向でさえ利益を示していないようです。PI の BURLAP 実装は、実際には「変更されたポリシーの反復」であり、各反復で制限付きの VI バリアントを実行することに注意してください。あなたへの私の質問は、(修正された) PI が VI よりも優れているはずの、理論的または実際的な状況を知っていますか?

score 2 · Accepted Answer

割引率 (ガンマ) が非常に高い場合、ポリシーの反復、具体的には修正ポリシーの反復が値の反復よりも優れていることがわかります。

http://www.cs.cmu.edu/afs/cs/project/jair/pub/volume4/kaelbling96a.pdf

mdp - 値の反復ではなくポリシーの反復を使用する場合

1 に答える 1

Related

Reference