次の特徴を持つ Python で反復マルコフ決定プロセス (MDP)エージェントを考案しようとしています。
- 観測可能な状態
- DPによって行われたクエリタイプの移動に応答するための状態空間を予約することにより、潜在的な「不明」状態を処理します(t + 1の状態は、前のクエリを識別します[または前の移動がクエリではなかった場合はゼロ]および埋め込み結果ベクトル) このスペースは固定長になるまで 0 でパディングされ、クエリの応答 (データ長は異なる場合があります) に関係なく状態フレームを整列させます。
- すべての状態で常に利用できるとは限らないアクション
- 報酬関数は時間の経過とともに変化する可能性があります
- ポリシーの収束は段階的であり、移動ごとにのみ計算される必要があります
したがって、基本的な考え方は、MDP が現在の確率モデルを使用して T で最善の推定最適化された移動を行う必要があるということです (そして、その移動は確率論的であるため、可能性のあるランダム性を意味する確率的であることが予想されます)、T+1 での新しい入力状態を報酬と結合します。 T での前の動きからモデルを再評価します。報酬が調整されたり、利用可能なアクションが変更されたりする可能性があるため、収束は永続的であってはなりません。
私が知りたいのは、この種のことをすでに実行できる(または適切なカスタマイズでサポートする可能性がある)現在のPythonライブラリ(WindozeとLinuxの間で環境を変更する必要があるため、できればクロスプラットフォーム)があるかどうかです。 say 報酬メソッドを独自のもので再定義できるようにするサポート)。
オンラインの移動ごとの MDP 学習に関する情報はかなり不足しています。私が見つけることができる MDP のほとんどの使用は、ポリシー全体を前処理ステップとして解決することに重点を置いているようです。