問題タブ [q-learning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
machine-learning - Qラーニング(複数目標)
私は Q ラーニングの研究を始めたばかりで、Q ラーニングを使用して問題を解決する可能性を確認しています。
問題: データの特定の組み合わせを検出することになっています。システムへの入力として機能する 4 つの行列があり、入力を既に分類しています (各入力は Low (L) または High (H) のいずれかになります)。LLLH、LLHH、HHHH など、特定のタイプの入力を検出する必要があります。
注: 1) LLLH は、L の最初の入力、2 番目の入力が L、3 番目の入力が L、4 番目の入力が H であることを意味します。2) 各入力タイプを状態としてラベル付けしました。たとえば、LLLL は状態 1、LLLH は状態 2 などです。
私が Q-learning で研究したことは、ほとんどの場合、エージェントが R-matrix から Q-matrix を学習して作成するのを容易にする 1 つの目標 (目標として 1 つの状態のみ) を持っているということです。今私の問題では、多くの目標があります(多くの状態が目標として機能し、検出する必要があります)。状態を設計する方法、多くの目標を設定して報酬マトリックスを作成する方法、エージェントが学習する方法がわかりません。このような状況で Q ラーニングを使用するにはどうすればよいか教えてください。考慮に入れると、私は20以上の州で16の目標を持っています!
上で述べたように、q-learning とは何か、状態と目標がどのように機能するか、Q_matrix の計算 (どのように学習するか) を知っています。私の問題をq-learningに関連付けるために..必要な状態の数と、多くの目標があるため、報酬にラベルを付ける方法。
少なくとも、多くの目標を持つ報酬マトリックスを作成するにはどうすればよいかについて助けが必要です
netlogo - NetLogo での強化学習の実装 (マルチエージェント モデルでの学習)
モデルにさまざまなタイプのエージェントの学習戦略を実装することを考えています。正直なところ、最初にどのような質問をすればよいか、どこから始めればよいか、まだわかりません。
経験によって習得してもらいたい 2 種類のエージェントがあり、発生する可能性のある特定の状況に基づいて、それぞれが異なる報酬を持つ一連のアクションを持っています。私は強化学習法に慣れていないので、どのような質問をすればよいかについての提案は大歓迎です:)
これが私の問題を定式化する方法です:
- エージェントには寿命があり、エージェントにとって重要ないくつかのことを追跡します。これらの指標はエージェントごとに異なります。たとえば、あるエージェントは A を増やしたいと考えており、別のエージェントは A よりも B を増やしたいと考えています。
- 状態は、エージェントの生涯におけるポイントであり、複数のオプションがあります (エージェントが動き回り、状況に直面することはない可能性があるため、状態が数回発生するか、まったく発生しない可能性があるため、状態の明確な定義はありません)
- 報酬は、エージェントが特定の状態のアクションから取得できる指標の増減であり、エージェントは別のアクションを選択した場合に何が得られるかわかりません。
- ゲインは一定ではなく、状態は明確に定義されておらず、ある状態から別の状態への正式な遷移はありません。
- たとえば、エージェントは同じ場所にいるエージェントの 1 人と共有するか (アクション 1)、同じ場所にいるすべてのエージェントと共有するか (アクション 2) を決めることができます。その他の条件 アクション 2 の報酬は高くなります。私の問題は、このシナリオでの共有は他のエージェントの特性 (報酬システムの条件に影響を与える) にも依存し、異なる状態では異なるため、不明な報酬の例を見たことがないことです。
私のモデルでは、アクションと次の状態の間に何の関係もありません。これは、この状況で RL について考えてよいかどうか疑問に思います。
ここで私が最適化しようとしているのは、エージェントが現在の状況をより適切な方法で推論し、内部状態によって引き起こされるニーズに対応するだけでなく、その能力です。彼らには、長期的な目標を定義し、さまざまな状況での意思決定に影響を与える可能性のあるいくつかの性格がありますが、ある状況でどのような行動をとったかが、優先する長期的な目標を高めるのに役立ったことを思い出してほしい.
python - Java から Python へのコードが機能しない
JavaコードをPythonコードに変換しようとしていますが、これまでに完了しました。Java コードは機能しますが、Python コードは機能しません。私を助けてください。
Python コード
Java コード
トレースバック
data-structures - 木で4つのパズルを解く
4ボックスパズルの問題を解こうとしています。私の経験によると、私の論理は、すべての数字がスペースと交換されてから、正しい位置に到達するというものです。
私はこれを持っています:
私の目標状態:
アプローチを使用しているもの:(キー:R->右、D->下、上->上、L->左)
これが私がやっていることですが、毎回同じツリーの状態になっていますが、正しい目標状態ではありません。間違ったツリー アプローチまたはアルゴリズムを使用している場合は、教えてください。インターネットで勉強した後、この種のツリーを実装しているためです。
reinforcement-learning - 最適なポリシーへの Q-Learning の収束
私はq 学習にrlglue ベースの python-rlフレームワークを使用しています。私の理解では、エピソードの数にわたって、アルゴリズムは最適なポリシーに収束します (これは、どの状態でどのアクションを実行するかを示すマッピングです)。
質問 1: これは、多くのエピソード (たとえば 1000 以上) の後、基本的に同じ state:action マッピングを取得する必要があるということですか?
報酬 (または 100 エピソードの平均報酬) をプロットすると、このリンクの図 6.13 のようなグラフが得られます。
質問 2: アルゴリズムが何らかのポリシーに収束した場合、報酬が低下するのはなぜですか? 報酬が大幅に変わる可能性はありますか?
質問 3: さまざまな RL アルゴリズムの結果を比較するために使用できる標準的な方法はありますか?
machine-learning - 最終状態のないQラーニングは可能ですか?
この問題を Q-learning で解かなければなりません。さて、実際には、Q ラーニング ベースのポリシーを評価する必要があります。
私は観光マネージャーです。
私はn 個のホテルを持っており、それぞれに異なる人数を収容できます。
ホテルに入れる人ごとに、選択した部屋に基づいて報酬を受け取ります。
私が望むなら、その人を殺すこともできるので、ホテルには行きませんが、別の報酬が得られます. (OK、それは冗談です...しかし、それは私が自己移行を行うことができると言うことです。そのため、その行動の後、私の部屋にいる人の数は変わりません)。
my state は、各ホテルの人数を含むベクトルです。
私のアクションはゼロと 1 のベクトルであり、新しい人をどこに置くかを教えてくれます。- 私の報酬マトリックスは
、状態間の各遷移 (自己遷移の場合でも) ごとに取得する報酬によって形成されます。
さて、私は無制限の数の人々を得ることができるので(つまり、私はそれを埋めることができますが、私は彼らを殺し続けることができます)、どうすればQマトリックスを構築できますか? Q マトリックスがないと、ポリシーを取得できないため、評価できません...
私は何を間違って見ていますか?最終的にランダムな状態を選択する必要がありますか? ポイントをまったく逃しましたか?