O 個のオブジェクトの 1 つを L 個の場所の 1 つに移動するアクションを N 個のアクターに割り当てる必要があるリアルタイム ドメインがあります。各タイム ステップで、すべてのアクターの全体的な成功を示す報酬 R が与えられます。
10 人の俳優、50 の固有のオブジェクト、1000 の場所があるため、各俳優に対して 500000 の可能なアクションから選択する必要があります。さらに、各オブジェクトが壁にどれだけ近いか、俳優にどれだけ近いかなど、50 の環境要因を考慮に入れることができます。これにより、アクターごとに 25000000 の潜在的なアクションが発生します。
ほとんどすべての強化学習アルゴリズムは、この分野には適していないようです。
第一に、ほとんどの場合、特定の状態での各アクションの期待効用を評価する必要があります。私の状態空間は巨大であるため、関数近似を使用したとしても、Q ラーニングのような原始的なものを使用してポリシーを収束させるには、とてつもなく時間がかかります。できたとしても、各タイム ステップで 100 万回のアクションから最適なアクションを見つけるには時間がかかりすぎます。
第二に、ほとんどのアルゴリズムはアクターごとに 1 つの報酬を想定していますが、私が与えた報酬は 1 人または複数のアクターのミスによって汚染される可能性があります。
この問題にどのようにアプローチすればよいですか?このようなドメインのコードは見つかりませんでした。また、マルチアクター強化学習アルゴリズムについて見つけたいくつかの学術論文は、提案されたアルゴリズムを再現するのに十分な詳細を提供していません。