強化学習設定でタスクを最適に実行するために必要なマウスの動きをエージェントに学習させようとしています (つまり、報酬信号が学習のための唯一のフィードバックです)。
Q 学習手法を使用したいと考えていますが、この方法を連続状態空間に拡張する方法を見つけましたが、連続動作空間の問題に対応する方法がわかりません。
すべてのマウスの動きを特定の大きさにし、特定の数の異なる方向だけにすることもできますが、アクションを個別にする合理的な方法であれば、巨大なアクション スペースが得られます。標準的な Q ラーニングでは、エージェントが考えられるすべてのアクションを評価する必要があるため、このような近似では問題を実際に解決することはできません。