algorithm - オペラントコンディショニングアルゴリズム？

Question

エージェントにリアルタイムのオペラント条件付け (監視された報酬/罰ベースの学習) を実装する最良の方法は何ですか? ニューラルネットワークを使用する必要がありますか (また、その種類は何ですか)? または、他の何か？

エージェントが犬のように命令に従うように訓練できるようにしたい. コマンドは、タッチスクリーン上のジェスチャの形式になります。エージェントが (連続する 2D 空間で) パスをたどり、コマンドで動作を変更し (FSM 状態遷移によってモデル化)、一連のアクションを実行できるようにエージェントをトレーニングできるようにしたいと考えています。

エージェントは、シミュレートされた物理環境にあります。

score 2 · Accepted Answer

強化学習は、問題に適した機械学習アルゴリズムです。

基本的な強化学習モデルは、次のもので構成されます。

環境状態のセットS(何らかの方法で離散化された 2D 空間があり、これが犬の現在の位置です。連続した 2D 空間を実行する場合は、値関数マッパーとして機能するニューラルネットワークが必要になる場合があります)。
一連のアクションA(犬が一連のアクションを実行すると言いました。たとえば、移動、回転)
状態間の遷移のルール (犬の位置遷移は FSM でモデル化できます)
遷移のスカラー即時報酬を決定するルールr(目標位置に到達したら、犬に大きな報酬を与えたいと思うかもしれませんが、中間のマイルストーンでは小さな報酬も歓迎されます)
エージェントが何を観察するかを説明するルール。(犬の視界は限られている場合があります。たとえば、4 つまたは 8 つの隣接するセルのみが表示されます。下の図は、犬の現在の位置Pと、犬から見える 4 つの隣接するセルを示す例です。)

ここに画像の説明を入力

最適なポリシーを見つけるには、モデルフリーの手法である q-learningから始めることができます。

algorithm - オペラントコンディショニングアルゴリズム？

1 に答える 1

Related

Reference