エージェントにリアルタイムのオペラント条件付け (監視された報酬/罰ベースの学習) を実装する最良の方法は何ですか? ニューラル ネットワークを使用する必要がありますか (また、その種類は何ですか)? または、他の何か?
エージェントが犬のように命令に従うように訓練できるようにしたい. コマンドは、タッチスクリーン上のジェスチャの形式になります。エージェントが (連続する 2D 空間で) パスをたどり、コマンドで動作を変更し (FSM 状態遷移によってモデル化)、一連のアクションを実行できるようにエージェントをトレーニングできるようにしたいと考えています。
エージェントは、シミュレートされた物理環境にあります。