16

すべての強化学習私が読んだアルゴリズムは通常、一定数のアクションを持つ単一のエージェントに適用されます。可変数のアクションを考慮しながら決定を下すための強化学習アルゴリズムはありますか? たとえば、プレーヤーが N 人の兵士を操作し、各兵士がその状態に基づいてランダムな数のアクションを行うコンピューター ゲームに RL アルゴリズムをどのように適用しますか? グローバルな意思決定者 (つまり、「将軍」) に対して固定数のアクションを定式化することはできません。これは、兵士が作成されたり殺されたりするにつれて、使用可能なアクションが絶えず変化するためです。また、兵士の行動は周囲の環境に基づいて条件付けられるため、兵士レベルで一定数の行動を定式化することはできません。兵士が敵を見ていない場合、歩くことしかできないかもしれませんが、

4

3 に答える 3

5

あなたが説明することは珍しいことではありません。強化学習は、マルコフ決定過程の価値関数を見つける方法です。MDPでは、すべての状態に独自のアクションのセットがあります。強化学習アプリケーションを続行するには、問題の状態、アクション、および報酬を明確に定義する必要があります。

于 2011-07-28T21:46:12.177 に答える
2

条件に応じて利用できる、または利用できない各兵士のアクションの数がある場合でも、固定された一連のアクションからの選択としてこれをモデル化できます。例えば:

  • 各兵士のアクションのフルセットごとに「効用値」を作成します
  • 特定の時間に利用できないアクションを無視して、最も価値の高いアクションを選択します

可能なターゲットが複数ある場合は、同じ原則が適用されますが、今回は効用関数をモデル化してターゲット指定を追加パラメーターとして取得し、評価関数を複数回(ターゲットごとに1つ)実行します。「攻撃ユーティリティ」が最も高いターゲットを選択します。

于 2011-03-07T11:15:27.803 に答える