46

強化学習設定でタスクを最適に実行するために必要なマウスの動きをエージェントに学習させようとしています (つまり、報酬信号が学習のための唯一のフィードバックです)。

Q 学習手法を使用したいと考えていますが、この方法を連続状態空間に拡張する方法を見つけましたが、連続動作空間の問題に対応する方法がわかりません。

すべてのマウスの動きを特定の大きさにし、特定の数の異なる方向だけにすることもできますが、アクションを個別にする合理的な方法であれば、巨大なアクション スペースが得られます。標準的な Q ラーニングでは、エージェントが考えられるすべてのアクションを評価する必要があるため、このような近似では問題を実際に解決することはできません。

4

6 に答える 6

28

この問題に対処する一般的な方法は、Actor-Critic メソッドを使用することです。これらは自然に連続的な行動スペースに拡張されます。基本的な Q 学習は、近似を使用すると発散する可能性がありますが、それでも使用したい場合は、「自己組織化マップの強化学習への応用」で行ったように、自己組織化マップと組み合わせてみてください。このペーパーには、役立つと思われる参考資料もいくつか含まれています。

于 2011-08-17T23:49:36.943 に答える
15

強化学習を継続的な行動に拡張する方法はたくさんあります。1つの方法は、アクター批評家の方法を使用することです。もう1つの方法は、ポリシー勾配法を使用することです。

さまざまな方法のかなり広範な説明は、オンラインで入手できる次の論文にあります。 連続状態およびアクションスペースでの強化学習(HadovanHasseltおよびMarcoA.Wieringによる)。

于 2011-08-18T15:30:19.047 に答える
6

あなたがしていることについて、私はあなたが継続的な行動空間で働く必要があるとは思わない. 物理的なマウスは連続した空間を移動しますが、内部ではカーソルは個別のステップ (通常はピクセル レベル) でのみ移動するため、このしきい値を超える精度を取得しても、エージェントのパフォーマンスには影響がないように思われます。状態空間はまだかなり大きいですが、有限で離散的です。

于 2011-08-18T01:12:26.980 に答える
1

価値に基づく学校からのリストを作成する別の論文は、Input Convex Neural Networksです。アイデアは、Q(s,a) がアクションで凸になることを要求することです (必ずしも状態ではありません)。次に、argmax Q 推論を解くことは、凸性を使用して大域的最適値を見つけることに還元されます。これは、徹底的なスイープよりもはるかに高速で、他の値ベースのアプローチよりも実装が容易です。ただし、通常のフィードフォワードまたは畳み込みニューラル ネットワークよりも表現力が低下する可能性があります。

于 2019-07-09T05:39:43.207 に答える