5

モデルにさまざまなタイプのエージェントの学習戦略を実装することを考えています。正直なところ、最初にどのような質問をすればよいか、どこから始めればよいか、まだわかりません。

経験によって習得してもらいたい 2 種類のエージェントがあり、発生する可能性のある特定の状況に基づいて、それぞれが異なる報酬を持つ一連のアクションを持っています。私は強化学習法に慣れていないので、どのような質問をすればよいかについての提案は大歓迎です:)

これが私の問題を定式化する方法です:

  1. エージェントには寿命があり、エージェントにとって重要ないくつかのことを追跡します。これらの指標はエージェントごとに異なります。たとえば、あるエージェントは A を増やしたいと考えており、別のエージェントは A よりも B を増やしたいと考えています。
  2. 状態は、エージェントの生涯におけるポイントであり、複数のオプションがあります (エージェントが動き回り、状況に直面することはない可能性があるため、状態が数回発生するか、まったく発生しない可能性があるため、状態の明確な定義はありません)
  3. 報酬は、エージェントが特定の状態のアクションから取得できる指標の増減であり、エージェントは別のアクションを選択した場合に何が得られるかわかりません。
  4. ゲインは一定ではなく、状態は明確に定義されておらず、ある状態から別の状態への正式な遷移はありません。
  5. たとえば、エージェントは同じ場所にいるエージェントの 1 人と共有するか (アクション 1)、同じ場所にいるすべてのエージェントと共有するか (アクション 2) を決めることができます。その他の条件 アクション 2 の報酬は高くなります。私の問題は、このシナリオでの共有は他のエージェントの特性 (報酬システムの条件に影響を与える) にも依存し、異なる状態では異なるため、不明な報酬の例を見たことがないことです。

私のモデルでは、アクションと次の状態の間に何の関係もありません。これは、この状況で RL について考えてよいかどうか疑問に思います。

ここで私が最適化しようとしているのは、エージェントが現在の状況をより適切な方法で推論し、内部状態によって引き起こされるニーズに対応するだけでなく、その能力です。彼らには、長期的な目標を定義し、さまざまな状況での意思決定に影響を与える可能性のあるいくつかの性格がありますが、ある状況でどのような行動をとったかが、優先する長期的な目標を高めるのに役立ったことを思い出してほしい.

4

1 に答える 1