問題タブ [reinforcement-learning]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
6 に答える
32018 参照

algorithm - 強化学習を連続行動空間に適用するにはどうすればよいですか?

強化学習設定でタスクを最適に実行するために必要なマウスの動きをエージェントに学習させようとしています (つまり、報酬信号が学習のための唯一のフィードバックです)。

Q 学習手法を使用したいと考えていますが、この方法を連続状態空間に拡張する方法を見つけましたが、連続動作空間の問題に対応する方法がわかりません。

すべてのマウスの動きを特定の大きさにし、特定の数の異なる方向だけにすることもできますが、アクションを個別にする合理的な方法であれば、巨大なアクション スペースが得られます。標準的な Q ラーニングでは、エージェントが考えられるすべてのアクションを評価する必要があるため、このような近似では問題を実際に解決することはできません。

0 投票する
1 に答える
1557 参照

testing - XOR Hebbian テスト/ニューラル ネットワークの例

Hebbian 学習フィードフォワード ニューラル ネットワークを実行するコードを書き終えました。以前にバックプロパゲーション ニューラル ネットワークを実行したことがありますが、それが機能することを確認するために最初に行ったのは、XOR 問題を試すことでした。

Hebbian 学習ニューラル ネットワークをテストするにはどうすればよいですか?

ニューラルネットワークの「Hello World」の長い行に沿って、XORまたはその他の問題を学習するヘビアンな方法はありますか?

0 投票する
2 に答える
2065 参照

artificial-intelligence - Connect 4 にはどの機械学習アルゴリズムを使用すればよいですか?

Connect 4 (ミニマックスを使用) が得意な AI がいます。今、私は機械学習アルゴリズムを使用して、私が持っているこの AI から学習したいと思っています。

これにはどのアルゴリズムが適しているでしょうか?また、どのようにトレーニングすればよいでしょうか? 誰かがこれを行う方法に名前を付けることができれば、自分で簡単にGoogleで検索できます. しかし、今、私は何をGoogleにするのかわかりません...

0 投票する
1 に答える
407 参照

machine-learning - リアルタイム ゲーム プレーヤー シミュレーターを構築するための好ましい機械学習手法は何ですか?

私は、テトリスの遊び方を学習する AI エンジン、つまりヒューリスティックを調整するなどしてパフォーマンスを改善できるエンジンの構築に着手しました。GUI を片付けたとしましょう。エンジンの構築はどこから始めればよいでしょうか。これに関連する機械学習の概念を理解するには、初心者としてどのリソースを使用すればよいですか?

特に、主題の数学的処理ではなく、コードと実際の例に基づいた説明資料を探しています。

0 投票する
1 に答える
7651 参照

c++ - C++ 強化学習ライブラリ

強化学習アルゴリズムを実装する C++ ライブラリを探していましたが、結果にはあまり満足できませんでした。

TU Graz からReinforcement Learning Toolbox 2.0を見つけましたが、残念ながらこのプロジェクトは非常に古く、コンパイルできませんでした。

Hado van Hasseltのコードもあります。有望に見えますが、積極的に維持されているようには見えません。

C++ の強化学習にはどのライブラリを使用していますか?

0 投票する
2 に答える
1349 参照

java - 4 行ゲームの強化学習に最適なアルゴリズム

4 行ゲームの強化学習に最適なアルゴリズムは何ですか? Q-Learning、MinMax などの RL アルゴリズムの 1 つを使用して 4 行ゲームを構築したいと考えています。

私がJavaを使用していることを考えると、使用するのに最適なものは何ですか?

0 投票する
1 に答える
1642 参照

java - 強化学習を実装したい4つのエージェントを接続します

4つのエージェントを接続する強化学習を実装したいと思います。私はそうする方法とそれがどのように見えるべきかわからない。私は強化学習の理論的側面に精通していますが、それらをどのように実装すべきかわかりません。

それはどのように行われるべきですか?TD(ラムダ)またはQ学習を使用する必要がありますか?また、MinMaxツリーはどのようにこれに組み込まれますか?QおよびV機能はどのように機能しますか(アクションの品質と状態の値)。それらをどのようにスコアリングしますか?私が改善する基本方針は何ですか、そして私のモデルは何ですか?もう1つは、statesまたはstatesXactionsをどのように保存する必要があるかです(学習アルゴリズムによって異なります)。ニューラルネットワークを使用する必要がありますか?はいの場合、どのように?

私はJAVAを使用しています。

ありがとう。

0 投票する
2 に答える
1801 参照

reinforcement-learning - QラーニングとTD(ラムダ)での報酬

これら2つのRLテクニックの報酬はどのように機能しますか?つまり、どちらもポリシーとその評価を改善しますが、報酬は改善しません。最初からそれらを推測するにはどうすればよいですか?

0 投票する
3 に答える
1409 参照

artificial-intelligence - Q-Learning で MinMax ツリーを使用するには?

Q-Learning で MinMax ツリーを使用するには?

Q-Learning コネクト フォー エージェントを実装したいのですが、MinMax ツリーを追加すると役立つと聞きました。

0 投票する
2 に答える
847 参照

machine-learning - neo4j による強化学習: グラフの 2 つのコピーを作成する vs 1 つのグラフにすべての値の 2 つのコピーを保存する

ノード値とエッジの重みを学習する機械学習アルゴリズムを実行する予定です。このアルゴリズムは、ここでの値反復アルゴリズムと非常によく似ています。各ノードは場所を表し、各エッジは新しい場所へのパスです。各ノードとエッジは、それがどの程度望ましいかを表す値を保持します。これらの値は、前の反復の値に基づいて反復ごとに更新されます。

バックエンドとしてneo4jを使用する予定です。現時点では約 600,000 のノードと 100,000,000 のエッジがありますが、後でさらに追加される可能性があります (グラフはメモリに収まりません)。前の反復からの値を保持する最良の方法は何ですか? 思いつく方法は次の2つです。

  1. 現在のデータベースのクローンを作成し、1 つのコピーを「現在の反復」コピーとして使用し、1 つのコピーを「前の反復」コピーとして使用します。
  2. 各反復の終わりに、各ノードとエッジのすべての値を「前の反復」プロパティに移動します。

人々は通常これをどのように行いますか?より良い方法はありますか?