問題タブ [reinforcement-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - PyBrain強化学習入力バッファが正しくない
強化学習をセットアップしようとしてPyBrain
いますが、初めてアクションを取得しようとすると、同じエラーが発生し続けます。module.pyのこの行は、使用している (モジュールの子)の入力バッファーがActionValueTable
適切に設定されていないため、アサート エラーをスローしています。
他の誰かが同様の問題を経験したか、問題を解決する方法について洞察を持っていますか?
python-2.7 - 強化学習の Softmax アクション選択を実装するこれよりも良い方法はありますか?
強化学習タスク ( http://www.incompleteideas.net/book/ebook/node17.html ) の Softmax アクション選択ポリシーを実装しています。
私はこの解決策にたどり着きましたが、改善の余地があると思います。
1-ここで確率を評価します
2-ここでは、ランダムに生成された ]0,1[ の範囲の数値をアクションの確率値と比較しています。
編集:
例: rand_action は 0.78、prob_t[0] は 0.25、prob_t[1] は 0.35、prob_t[2] は 0.4 です。確率の合計は 1 になります。0.78 はアクション 0 と 1 の確率の合計 (prob_t[0] + prob_t[1]) より大きいため、アクション 2 が選択されます。
これを行うより効率的な方法はありますか?
python - AI学習に最適/最も簡単なモジュール?
私はこれを読みました
AI にゲームをゼロから学習させるにはどうすればよいですか? ちょっとした例として、AI がブラックジャックをプレイし、すべてのスプリット、デッキ内のカードなどを割引するとしましょう。AI はヒットするかスタンドするかのいずれかであり、もちろん負け始めるまで何をするかわかりません。ゲームでは、ヒットしすぎると負けるということを学習する必要があります。私はこれを強化学習と呼んでいます。しかし、それを実装する方法、使用するモジュールなどはわかりません...
どこから始めればよいですか?
私の究極の目標は、ユーザーと AI が対戦するのではなく、ゲーム メカニクスに対して [協同ではなく] 両方がプレイし、両方が学習するようなゲームを作成することです。ゲームは時々変化し、新しいメカニズムが登場し、プレイヤーと AI の両方にとってゲームが難しくなります。AI は、ゲームをプレイするだけでなく、プレーヤーが勝って負けるのを見て学習します。私はコンピューターがあまりにも早く学習することを望んでいません.両方が同じ「地面」にあるようにしたいと思います...おそらく最終レベルは、プレーヤーがAIと対戦できるようになるでしょう. 私は正しい場所に行っていますか、それとも他のアプローチを試す必要がありますか?
編集:広すぎると思いました。そこで、ML と AI について少し検索したところ、scikit-learn、PyBrain、neurolab、RLToolkit など、役立つモジュールがいくつか見つかりました。最初の 2 つは、どのように開始すればよいかよくわかりませんでした。人工ニューラル ネットワークとは何かをよく理解していなかったので、まだ試したことのないニューロラボである私のような新参者にとって、ドキュメントは非常に不明確です[ ANN] とそれがどのように私を助けることができるか、強化学習に特化した最後のものにはドキュメントがありません。
python - 強化学習で関数近似の重みをどのように更新しますか?
勾配降下を使用した私の SARSA は、重みを指数関数的に増加させ続けます。エピソード 4 ステップ 17 で値はすでに nan です
例えば:
自分が犯した間違いをどこで探すべきかわかりません。ここにいくつかのコード FWIW があります:
約 183 のバイナリ機能があります。
python - Pybrain 強化学習動的出力
動的に変化する出力で Pybrain からの強化学習を使用できますか。たとえば、天気: 2 つの属性 Humidity と Wind があり、出力が Rain または NO_Rain のいずれかになるとします (使用しているテキスト ファイルでは、すべての属性が true の場合は 1、false の場合は 0 になります)。このタイプの問題に強化学習を使用できますか? 私が尋ねる理由は、湿気があっても、雨が降るとは限らないからです。
matlab - 値関数の matlab シミュレーション
次の値関数をシミュレートしたい。
d は決定行列です
x=t+ベータ * w'
y=アルファ*(c+ベータ*v')
v=最大{x、y}
x>y の場合 v=x および x の場合 d= 2
a=ファイ * t+ベータ * w'
b=ファイ * c+ベータ * v'
w=max{a , b}
a>b の場合 w=a および a の場合 d= 2
ここで、右側の w' と v' は次の期間の値関数です。
決定行列 d を追跡する必要があります。
私はmatlabで次のコーディングを行いました。しかし、それは正しくないようです。コーディングの何が問題になっていますか?