問題タブ [mdp]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
c++ - プログラムでクラッシュ ダンプを分析する
クラッシュ ダンプ、シンボル ストアからシンボルを読み込み、プログラムによる情報へのアクセスを許可する API はありますか?
クラッシュ ダンプを自動処理し、それらに基づいてレポートを生成するツールを作成したいと考えています。
spring - Spring MDPリスナーが生きているかどうかを知る方法は?
JMS キューをリッスンし、同期要求応答メッセージに応答する戦争としてデプロイされた Spring MDP リスナーがあります。リスナーが生きているかどうかを監視する最良の方法は何ですか? それとも、Web アプリのモニターをセットアップして、それが Java アプリ サーバーで稼働しているかどうかを確認する方法について考えてみませんか?
spring - Spring MDP がメッセージを消費しない
メッセージを送受信するためにSpring MDP + JMSTemplateを実装しています。メッセージ送信メカニズムは正常に動作していますが、MDP が呼び出されていません。プレーンレシーバー経由でテストしてみましたが、メッセージを取得できましたが、MDP 経由では取得できませんでした。何が問題なのですか?リクエスト キューにメッセージが蓄積されているのがわかりますが、なぜか MDP がトリガーされていません。ここで構成に欠けているものはありますか、それとも何か他の処理が必要ですか?
これがSpring Configです。送受信する Java クラスは、ほぼ標準的なものです。
spring - WebLogic MDB を Spring メッセージ駆動型 POJO に変換する
MDB を使用して、WebLogic 11b (10.3.4) 上に構築されたアプリケーションがあります。これらをSpring MDPに変換しようとしています。問題の MDB は次のとおりです。
MDB の親である TraxMessageRouter は、MessageListener インターフェイスを実装します。
jms-applicationContext.xml で MDP Bean を作成しました。
@MessageDriven アノテーションを適切な Spring 構文に変換するにはどうすればよいですか? 今コメントアウトしてもいいですか?
さらにいくつかの EventRouterBeans があります。それらはすべて jms-ApplicationContext.xml で Bean 宣言を取得しますか、それとも親の TraxMessageRouter を xml に追加できますか?
構成ファイルに対して他にどのような変更を行う必要がありますか? MDB から MDP への移行方法に関する適切なガイドはありますか? EJB 3 から Spring への移行方法に関する適切なガイドはありますか?
mdp - 値の反復ではなくポリシーの反復を使用する場合
私は現在、マルコフ決定過程に対する動的計画法ソリューションを研究しています。私は VI と PI について十分に把握できていると感じており、PI の動機はかなり明確です (必要なのは正しいポリシーだけである場合、正しい状態ユーティリティに収束することは不必要な作業のように思えます)。ただし、私の実験では、実行時間に関して PI が有利であることは示されていません。状態空間のサイズと割引係数に関係なく、一貫して時間がかかるようです。
これは、実装 (私はBURLAPライブラリを使用しています) によるものか、私の側での不十分な実験が原因である可能性があります。ただし、傾向でさえ利益を示していないようです。PI の BURLAP 実装は、実際には「変更されたポリシーの反復」であり、各反復で制限付きの VI バリアントを実行することに注意してください。あなたへの私の質問は、(修正された) PI が VI よりも優れているはずの、理論的または実際的な状況を知っていますか?
python - PyBrains Q-Learning 迷路の例。州の価値観とグローバル ポリシー
PyBrains 迷路の例を試しています
私のセットアップは次のとおりです。
右下隅(1、8)は吸収状態です
mdp.py に追加の罰状態 (1, 7) を入れました。
ここで、1000 回実行し、各実行中に 200 回のインタラクションを行った後、エージェントがどのようにして私の処罰状態が良好な状態であると判断するのか理解できません (四角が白であることがわかります)。
最終実行後にすべての状態とポリシーの値を確認したいと思います。それ、どうやったら出来るの?この行がいくつかの値を返すことがわかりましたがtable.params.reshape(81,4).max(1).reshape(9,9)
、それらが値関数の値に対応しているかどうかはわかりません