問題タブ [markov-decision-process]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 文字列データ用にPythonでマルコフ決定プロセスモデルを構築する方法は?
URI で表されるデータを含むデータセットがあります。シーケンシャル データからデータ サンプルの先行者と後続者を予測できるデータをモデル化したいと考えています。データセットは次のようになります。
たとえば、「HTTP://example.com/112」が指定された場合、モデルは「HTTP://example.com/296」を先行として生成し、「HTTP://example.com/322」を後続として生成します。前述の結果を得るために、このデータセットのマルコフ決定プロセス モデルを構築したいと思います。Python に適したパッケージを見つけるのを手伝ってくれる人がいれば、それは素晴らしいことです。隠れマルコフモデルを実装できる「hmmlearn」パッケージを確認しました。しかし、私のデータには隠し状態がありません。また、これらのデータを数値データに変換する必要があるかどうかもわかりません。その後、マルコフ モデルを構築できます。
前もって感謝します!
state - ディープ Q ラーニングの入力状態
エージェントが到着要求を最適な仮想マシンに割り当てるリソース割り当てに DQN を使用しています。次のように Cartpole コードを変更しています。
Cartpole は、Q ネットワークの入力が環境によって与えられると述べています。
問題は、私のコードでは、Q ネットワークの入力は何ですか? エージェントは到着要求のサイズに基づいて可能な限り最善のアクションを実行する必要がありますが、これは環境によって与えられません。この入力値、サイズを Q ネットワークに供給しますか?
machine-learning - 大規模なマルコフ決定プロセス (MDP) を操作するためのライブラリを探しています
大規模なマルコフ決定プロセスとして表現したい問題があります。状態遷移と報酬を予測できるモデルがあることを期待していますが、価値関数とポリシー関数を推論したいと考えています。値関数と「Q」関数のおおよその推論、および線形モデルまたはニューラル ネットワークを介した推論はうまく機能します。
重要な要件: メモリ内で表現できないように、状態空間を拡張します。状態を特徴付ける特徴値によって状態を表す必要があります。
この大規模な設定で価値とポリシー機能を推測するのに役立つライブラリはありますか? 私が遭遇したマルコフ決定プロセス ライブラリのほとんどは、非常に小規模な問題と正確な推論に向けられているようです。
ターンキー ソリューションがない場合、そのようなシステムを構築する方法について誰か提案がありますか?
reinforcement-learning - マルコフ決定過程におけるモデリングアクションの使用制限
特定の数の状態とアクションを持つマルコフ決定プロセスがあります。どの状態からでも 1 回だけ使用でき、一度使用すると再使用できないアクションをモデルに組み込みたいと考えています。状態図でこのアクションをモデル化するにはどうすればよいですか? 私は別の状態を持ち、報酬に -inf を使用することを考えましたが、これらのどれもうまくいかないようです. ありがとう!