問題タブ [reinforcement-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
4 に答える
405 参照

python - PyBrain強化学習入力バッファが正しくない

強化学習をセットアップしようとしてPyBrainいますが、初めてアクションを取得しようとすると、同じエラーが発生し続けます。module.pyのこの行は、使用している (モジュールの子)の入力バッファーがActionValueTable適切に設定されていないため、アサート エラーをスローしています。

他の誰かが同様の問題を経験したか、問題を解決する方法について洞察を持っていますか?

0 投票する
3 に答える
3754 参照

python-2.7 - 強化学習の Softmax アクション選択を実装するこれよりも良い方法はありますか?

強化学習タスク ( http://www.incompleteideas.net/book/ebook/node17.html ) の Softmax アクション選択ポリシーを実装しています。

私はこの解決策にたどり着きましたが、改善の余地があると思います。

1-ここで確率を評価します

2-ここでは、ランダムに生成された ]0,1[ の範囲の数値をアクションの確率値と比較しています。

編集:

例: rand_action は 0.78、prob_t[0] は 0.25、prob_t[1] は 0.35、prob_t[2] は 0.4 です。確率の合計は 1 になります。0.78 はアクション 0 と 1 の確率の合計 (prob_t[0] + prob_t[1]) より大きいため、アクション 2 が選択されます。

これを行うより効率的な方法はありますか?

0 投票する
1 に答える
671 参照

python - AI学習に最適/最も簡単なモジュール?

私はこれを読みました

AI にゲームをゼロから学習させるにはどうすればよいですか? ちょっとした例として、AI がブラックジャックをプレイし、すべてのスプリット、デッキ内のカードなどを割引するとしましょう。AI はヒットするかスタンドするかのいずれかであり、もちろん負け始めるまで何をするかわかりません。ゲームでは、ヒットしすぎると負けるということを学習する必要があります。私はこれを強化学習と呼んでいます。しかし、それを実装する方法、使用するモジュールなどはわかりません...

どこから始めればよいですか?

私の究極の目標は、ユーザーと AI が対戦するのではなく、ゲーム メカニクスに対して [協同ではなく] 両方がプレイし、両方が学習するようなゲームを作成することです。ゲームは時々変化し、新しいメカニズムが登場し、プレイヤーと AI の両方にとってゲームが難しくなります。AI は、ゲームをプレイするだけでなく、プレーヤーが勝って負けるのを見て学習します。私はコンピューターがあまりにも早く学習することを望んでいません.両方が同じ「地面」にあるようにしたいと思います...おそらく最終レベルは、プレーヤーがAIと対戦できるようになるでしょう. 私は正しい場所に行っていますか、それとも他のアプローチを試す必要がありますか?

編集:広すぎると思いました。そこで、ML と AI について少し検索したところ、scikit-learn、PyBrain、neurolab、RLToolkit など、役立つモジュールがいくつか見つかりまし。最初の 2 つは、どのように開始すればよいかよくわかりませんでした。人工ニューラル ネットワークとは何かをよく理解していなかったので、まだ試したことのないニューロラボである私のような新参者にとって、ドキュメントは非常に不明確です[ ANN] とそれがどのように私を助けることができるか、強化学習に特化した最後のものにはドキュメントがありません。

0 投票する
2 に答える
1134 参照

python - 強化学習で関数近似の重みをどのように更新しますか?

勾配降下を使用した私の SARSA は、重みを指数関数的に増加させ続けます。エピソード 4 ステップ 17 で値はすでに nan です

例えば:

自分が犯した間違いをどこで探すべきかわかりません。ここにいくつかのコード FWIW があります:

約 183 のバイナリ機能があります。

0 投票する
1 に答える
237 参照

python - Pybrain 強化学習動的出力

動的に変化する出力で Pybrain からの強化学習を使用できますか。たとえば、天気: 2 つの属性 Humidity と Wind があり、出力が Rain または NO_Rain のいずれかになるとします (使用しているテキスト ファイルでは、すべての属性が true の場合は 1、false の場合は 0 になります)。このタイプの問題に強化学習を使用できますか? 私が尋ねる理由は、湿気があっても、雨が降るとは限らないからです。

0 投票する
1 に答える
86 参照

matlab - 値関数の matlab シミュレーション

次の値関数をシミュレートしたい。

d は決定行列です

x=t+ベータ * w'

y=アルファ*(c+ベータ*v')

v=最大{x、y}

x>y の場合 v=x および x の場合 d= 2

a=ファイ * t+ベータ * w'

b=ファイ * c+ベータ * v'

w=max{a , b}

a>b の場合 w=a および a の場合 d= 2

ここで、右側の w' と v' は次の期間の値関数です。

決定行列 d を追跡する必要があります。

私はmatlabで次のコーディングを行いました。しかし、それは正しくないようです。コーディングの何が問題になっていますか?