3

O 個のオブジェクトの 1 つを L 個の場所の 1 つに移動するアクションを N 個のアクターに割り当てる必要があるリアルタイム ドメインがあります。各タイム ステップで、すべてのアクターの全体的な成功を示す報酬 R が与えられます。

10 人の俳優、50 の固有のオブジェクト、1000 の場所があるため、各俳優に対して 500000 の可能なアクションから選択する必要があります。さらに、各オブジェクトが壁にどれだけ近いか、俳優にどれだけ近いかなど、50 の環境要因を考慮に入れることができます。これにより、アクターごとに 25000000 の潜在的なアクションが発生します。

ほとんどすべての強化学習アルゴリズムは、この分野には適していないようです。

第一に、ほとんどの場合、特定の状態での各アクションの期待効用を評価する必要があります。私の状態空間は巨大であるため、関数近似を使用したとしても、Q ラーニングのような原始的なものを使用してポリシーを収束させるには、とてつもなく時間がかかります。できたとしても、各タイム ステップで 100 万回のアクションから最適なアクションを見つけるには時間がかかりすぎます。

第二に、ほとんどのアルゴリズムはアクターごとに 1 つの報酬を想定していますが、私が与えた報酬は 1 人または複数のアクターのミスによって汚染される可能性があります。

この問題にどのようにアプローチすればよいですか?このようなドメインのコードは見つかりませんでした。また、マルチアクター強化学習アルゴリズムについて見つけたいくつかの学術論文は、提案されたアルゴリズムを再現するのに十分な詳細を提供していません。

4

1 に答える 1

4

問題の明確化

N=10 アクター
O=50 オブジェクト
L=1K ロケーション
S=50 フィーチャ

私が理解しているように、あなたは N 個の俳優、O 個のオブジェクト、L 個の場所、およびいくつかの壁を備えた倉庫を持っています。目標は、O 個のオブジェクトのそれぞれが L 個の場所のいずれかに最短時間で到達するようにすることです。アクション スペースは、任意の時点でどのアクターがどのオブジェクトをどの場所に移動するかの決定で構成されます。状態空間は、約 50 の X 次元の環境要因で構成されており、アクターやオブジェクトと壁や互いとの近接性などの特徴が含まれています。したがって、一見したところ、X S (OL) N 個のアクション値があり、ほとんどのアクション ディメンションは離散的です。

述べた問題は、強化学習の良い候補ではありません。しかし、環境要因が実際に何であり、いくつの制限が自主的に課されているかは不明です. では、関連する別の問題を見てみましょう。

別の問題を解決する

私たちは一人の俳優を見ます。たとえば、倉庫内の自分の位置、他の 9 人のアクターの位置、50 個のオブジェクトの位置、および 1000 の場所を知っているとします。50 個のオブジェクトのそれぞれが 1000 個の場所のいずれかにあるときに発生する、最大の報酬を達成したいと考えています。

倉庫内の位置の P 次元表現があるとします。各位置は、焦点を合わせている俳優、他の俳優の 1 人、オブジェクト、または場所によって占有される可能性があります。アクションは、オブジェクトと場所を選択することです。したがって、4 P次元の状態空間と P 2次元のアクション空間があります。つまり、4 P P 2次元の値関数があります。表現をさらに実験し、さまざまなパラメーターにさまざまな精度のエンコーディングを使用し、オプション 2を使用することで、問題を実際の領域に持ち込める可能性があります。

複雑な空間設定での学習の例については、Konidaris の論文12を読むことをお勧めします。


1 Konidaris, G., Osentoski, S. & Thomas, P., 2008.フーリエ基底を使用した強化学習における値関数近似。コンピューター サイエンス学科教員出版シリーズ、p.101。

2 Konidaris, G. & Barto, A., 2009. Skill Chaining を使用した継続的強化学習ドメインにおけるスキル発見 Y. Bengio et al., eds. 神経情報処理システムの進歩、18、pp.1015-1023。

于 2012-01-25T03:28:23.003 に答える