8

次の特徴を持つ Python で反復マルコフ決定プロセス (MDP)エージェントを考案しようとしています。

  • 観測可能な状態
    • DPによって行われたクエリタイプの移動に応答するための状態空間を予約することにより、潜在的な「不明」状態を処理します(t + 1の状態は、前のクエリを識別します[または前の移動がクエリではなかった場合はゼロ]および埋め込み結果ベクトル) このスペースは固定長になるまで 0 でパディングされ、クエリの応答 (データ長は異なる場合があります) に関係なく状態フレームを整列させます。
  • すべての状態で常に利用できるとは限らないアクション
  • 報酬関数は時間の経過とともに変化する可能性があります
  • ポリシーの収束は段階的であり、移動ごとにのみ計算される必要があります

したがって、基本的な考え方は、MDP が現在の確率モデルを使用して T で最善の推定最適化された移動を行う必要があるということです (そして、その移動は確率論的であるため、可能性のあるランダム性を意味する確率的であることが予想されます)、T+1 での新しい入力状態を報酬と結合します。 T での前の動きからモデルを再評価します。報酬が調整されたり、利用可能なアクションが変更されたりする可能性があるため、収束は永続的であってはなりません。

私が知りたいのは、この種のことをすでに実行できる(または適切なカスタマイズでサポートする可能性がある)現在のPythonライブラリ(WindozeとLinuxの間で環境を変更する必要があるため、できればクロスプラットフォーム)があるかどうかです。 say 報酬メソッドを独自のもので再定義できるようにするサポート)。

オンラインの移動ごとの MDP 学習に関する情報はかなり不足しています。私が見つけることができる MDP のほとんどの使用は、ポリシー全体を前処理ステップとして解決することに重点を置いているようです。

4

2 に答える 2

1

私は大学院生で、Python で多くの MCMC を行っていますが、私の知る限り、MDP を直接実装するものはありません。私が知っている最も近いものはPyMCです。ドキュメントを掘り下げるとthisが提供され、クラスを拡張するためのアドバイスが得られます。彼らは間違いなく、箱から出してすぐに利用できる報酬などを持っていません.

何か良いものを開発することに真剣に取り組んでいる場合は、PyMC を拡張およびサブクラス化して意思決定プロセスを作成することを検討してください。そうすれば、PyMC の次の更新にそれを含めて、将来の多くの人々を助けることができます。

于 2012-02-06T07:07:01.630 に答える
1

これは MDP 用のpython ツールボックスです

警告: これは基本的な教科書の MDP 用であり、部分的に観測可能な MDP (POMDP) や報酬の非定常性に関するものではありません。

2 番目の警告: ドキュメントが本当に不足していることがわかりました。python コードが何を実装しているかを知りたい場合は、python コードを調べる必要があります。または、MATLAB 用に持っている同様のツールボックスのドキュメントをすばやく見ることができます。

于 2013-07-21T18:31:34.093 に答える