問題タブ [reinforcement-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Reinforcement learning methodes that map continuous to continuous
I am building a model where firms have to set prices and make production decisions. Prices are continuous and so are the decision variables. (inventory, last sales, prices...).
What reinforcement learning method can I use that maps continuous to continuous ? Which python packages are there? If there are no python packages, I could write a wrapper.
machine-learning - Q 学習で 2 つ以上のアクションを使用したボルツマン探索
各状態で少なくとも 10 個のアクションがある Q ラーニングでボルツマン探索を使用しています。たった 2 つのアクションで、ボルツマン探査を次のように非常に簡単に適用できることを私は知っています。
- ボルツマン探査方程式を使用して、2 つのアクションの pr1 と pr2 を計算します。
- 乱数rを生成する
- pr1>pr2 とする。r<=pr1 の場合、確率 pr1 に対応するアクションを実行します。r>pr1 の場合、pr2 に対応するアクションを実行します。
しかし、どうすれば10個のアクションでこれを行うことができますか? 各決定ステップで、すべてのアクションの確率を更新します。これにより、最善のアクションの確率が最も高いすべてのアクションの確率分布が得られます。この場合、ボルツマン探査を使用してアクションを選択するにはどうすればよいですか?
optimization - Q-ラーニング値更新
Q ラーニング アルゴリズムを使用して、デバイスの電源管理に取り組んでいます。デバイスには、アイドルとスリープの 2 つの電力モードがあります。デバイスがスリープ状態の場合、処理の要求はキューにバッファリングされます。Q 学習アルゴリズムは、即時の消費電力とアクションによって発生する遅延の加重合計であるコスト関数を最小化するように探します。
各状態で、学習アルゴリズムはアクション (タイムアウト値の実行) を実行し、次の状態で実行されたアクションの効果を評価します (上記の式を使用)。アクションは、事前定義されたタイムアウト値のプールから特定のタイムアウト値を実行することによって実行されます。上記の式のパラメーターlambdaは、電力性能パラメーター ( 0 _< lambda < 1 ) です。アルゴリズムが省電力 (ラムダ --> 1) を探すか、レイテンシの最小化 (ラムダ --> 0) を探すかを定義します。各リクエストのレイテンシーは、queuing-time + execution-timeとして計算されます。
問題は、学習アルゴリズムがスリープ状態でのタイムアウト値を常に小さくすることです。これは、タイムアウト値が小さい場合の平均レイテンシが常に低く、そのためコストも小さいためです。ラムダの値を低い値から高い値に変更しても、最終的な出力ポリシーに何の影響も見られません。ポリシーは常に、各状態でのベスト アクションとして小さいタイムアウト値を選択します。各状態の平均電力と平均レイテンシの代わりに、全体の平均消費電力と全体の平均レイテンシを使用して、状態とアクションのペアのコストを計算しようとしましたが、役に立ちません。また、各状態とアクションのペアでコストを計算するためのすべての要求によって経験される総エネルギー消費量と総待ち時間を使用しようとしましたが、どちらも役に立ちません。私の質問は次のとおりです。このシナリオのより良いコスト関数は何ですか? 次のように Q 値を更新します。
ここで、 alphaは学習率 (ゆっくりと減少) であり、gamma=0.9は割引係数です。
python-2.7 - PyBrain 強化学習 - 迷路とグラフ
迷路の問題に似たものを PyBrain に実装しようとしていました。ただし、非常口のある部屋に似ており、エージェントを部屋の 1 つに残して出口を見つけます。これをコンピューター方式に変換するには、部屋間の経路を示す重みを使用して双方向グラフを使用できます。
私は新しい環境を実装しようとしましたが、何をすべきかについて少し迷っています。たとえば、抽象環境クラスに基づいて、私はこれについて考えました:
心から、
java - 強化学習における方策反復問題
ポリシーの反復に関する問題を解決する必要があります。モデルは に示されています
そして、シミュレートする Java プログラムを作成します。ポリシー アルゴリズムは、Sutton と Barto の強化学習に関する本に基づいています。Java プログラムのモデルは、図のモデルと一致していると確信しています。最終的にシミュレーションを実行すると、4回の繰り返しで最終結果が教科書の最終的な答えと一致します。しかし、教科書では、最終的な答えは3回の反復しかかからず、最終的な答えは正しいのですが、反復の中間の答えには小さな変更があり、何が問題なのかわかりませんか?
教科書の答えは、
matlab - 私のmatlabコードを使用した強化学習におけるWindy gridworldゲームの問題のバリエーション
強化学習では風の 強いグリッドワールドが典型例
そして、私はさらに壁と確率的な風を持っている風の強いグリッドワールドの新しいバリエーションに直面しています。私はこれら2つの新しいことに行き詰まっています
図 1 は標準的なグリッドワールドを示しています。開始 (S) セルと目標 (G) セルがありますが、2 つの相違点があります。エージェントが越えられない壁 (黒いセルで示されます)と、下と左に横風があります。グリッドの右端にあります。各セルで利用可能なアクションは、王の動きです。各セルの合計で 8 つのアクション。なんらかのアクションでグリッドワールドの外に出たり、壁にぶつかったりすると、最も近いセルに移動します(たとえば、左上のセルで北東に移動すると、1 つのセルが右に移動します)。右側の領域では、結果として得られる次のセルが、確率的な「風」によって左下にシフトされます。その平均の強さは、列ごとに異なります。風の平均の強さは、各列の下に、左下にシフトされたセルの数で示されます。 .
確率論のため、風は各列に与えられた平均値から 1 ずれる場合があります (平均が 0 の場合を除く)。つまり、3 分の 1 の時間で列の下に示されている値に従って正確に左下にシフトされ、3 分の 1 の時間で 1 つ下のセルにシフトされて左にシフトされ、別の 3 分の 1 の時間で 1 つシフトされます。平均より小さいセル。たとえば、壁の列と開口部の真ん中にいて、上に移動した場合、3 分の 1 の確率でそのセルの 1 列西に移動し、3 分の 1 の確率で移動します。そのセルの西に 2 列、そのセルの南に 1 列、3 分の 1 の確率で、そのセルの北の同じ列に到達します。風はあなたがいるセルに影響を与えますが、あなたが行くセルには影響しません。
= 0:1, = 0:9 およびすべての s に対して初期 Q(s; a) = 0 を使用して、上記の問題に Q 学習アルゴリズム 2 を実装します。を。各アクションは、目標セル (rg = 10) にすぐにつながるアクションを除いて、rs = 1 の報酬を生成します。以下を使用します。 - = 0:2 で貪欲なアクション選択方法。初期 Q(s,a) > 0 および初期 Q(s,a) < 0 の貪欲な行動選択法。
私のmatlabコードは動作します。
私の本当の問題は、 関数 nextPos = GiveNextPos(curPos, actionIndex, windpowers, gridCols, gridRows)にあります。エージェントはアクションを決定し、次のステップに進みます。しかし、確率的な風や壁など、次のステップに影響を与える多くの要因があります。
最初の質問は確率的風についてです.1/3の確率で3、別の1/3の確率で1.
2 番目の質問は、衝突する壁についてです。最初に王の歩行と風の次のステップを計算し、次にこの次のステップの値を使用して、壁に衝突したかどうかを確認する必要がありますか???)
machine-learning - 進化的計算は強化学習の方法になり得ますか?
進化的計算とは何ですか?強化学習の方法ですか?または、機械学習の別の方法ですか?または多分なし?
この質問に答えるために使用された参考文献を引用してください。
artificial-intelligence - グリッドの世界でのポリシー反復の背後にある直感
割り当てにポリシー反復と値反復を使用する MDP エージェントを考え出し、そのパフォーマンスを状態の効用値と比較することになっています。
MDP エージェントは、遷移の確率と報酬を知っている場合、移動するアクションをどのように知るのでしょうか?
私の理解では、MDP エージェントはポリシーの反復を実行し、ポリシーが与えられると、終了状態に到達する間に獲得した報酬を計算します。このポリシーは、値反復アルゴリズムから開発されています。
ポリシーの反復がどのように機能するかについて、誰かが直感を提供できますか?
machine-learning - Q-Learning で同じアクションを繰り返した後の反復報酬の結果である、Q-Value の無制限の増加
私は、簡単なアプリケーションに対する単純な Q-Learning の実装を開発中ですが、私を困惑させ続けていることがあります。
Q-Learningの標準的な定式化を考えてみましょう
K
エージェントに報酬R
を与える と とにR'
よる2 つの可能なアクションを持つこの状態があると仮定しましょう。A
A'
ほぼ完全に貪欲なアプローチに従う場合 (たとえば、0.1 イプシロンを想定するとします)、最初にアクションの 1 つをランダムに選択しますA
。次回は、おそらく(90% の確率で) もう一度選択するA
と、Q(K, A) が成長し続けることになります。A'
A と同じ大きさになると、残りの学習中に、最初の推測から「回復」することが実質的に不可能な状況に陥ることになります。
そうでないと、エージェントは基本的に学習しません。単純なレシピに従うだけです。最初に行ったようにすべてを実行してください。
何か不足していますか?アルファ値を微調整できることはわかっていますが (通常、時間の経過とともに値を小さくします)、状況が改善されることはありません。
machine-learning - 強化学習による多目的最適化
システムの電源管理に取り組んでいます。私が最小化しようとしている目標は、消費電力と平均遅延です。両方の目的の線形加重和を持つ単一の目的関数があります。
私はQ学習を使用して、重みwを変化させ、消費電力と平均遅延に異なる優先順位を設定することにより、パレート最適なトレードオフ曲線を見つけています。私はパレート最適曲線を取得します。私の目的は、現在、制約(たとえば、平均遅延L_avg)を提供し、指定された基準を満たすようにwの値を調整/検索することです。鉱山はオンラインアルゴリズムであるため、wの調整はオンラインで行う必要があります。
この点に関して何かヒントや提案をいただけますか?