私は大学で「Intelligent Machines」というコースにいます。強化学習の 3 つの方法が紹介され、それらをいつ使用するかについての直感が与えられました。引用します。
- Q-Learning - MDP が解けない場合に最適です。
- 時間差学習 - MDP が既知であるか、学習できるが解決できない場合に最適です。
- モデルベース - MDP を学習できない場合に最適です。
ある方法を他の方法よりもいつ選択するかを説明する良い例はありますか?
私は大学で「Intelligent Machines」というコースにいます。強化学習の 3 つの方法が紹介され、それらをいつ使用するかについての直感が与えられました。引用します。
ある方法を他の方法よりもいつ選択するかを説明する良い例はありますか?
時間差は、特定の信号の将来の値に依存する量を予測する方法を学習するアプローチです。V関数とQ関数の両方を学習するために使用できますが、Q学習はQ関数を学習するために使用される特定のTDアルゴリズムです。Don Reba が述べたように、アクションを実行するには Q 関数が必要です (たとえば、イプシロン貪欲ポリシーに従う)。V 関数しかない場合でも、考えられるすべての次の状態を繰り返し、V 値が最も高い状態に導くアクションを選択することで、Q 関数を導き出すことができます。例と詳細については、Sutton and Barto の古典的な本をお勧めします。
モデルフリー強化学習では、状態遷移関数 (モデル) を学習せず、サンプルのみに頼ることができます。ただし、たとえば、多くのサンプルを収集できず、いくつかの仮想サンプルを生成したいなどの理由で、それを学習することにも興味があるかもしれません. この場合、モデルベースのRLについて話します。モデルベースの強化学習は、ロボット工学では非常に一般的であり、多くの実際のシミュレーションを実行できないか、ロボットが壊れます。これは、多くの例を含む優れた調査です (ただし、ポリシー検索アルゴリズムについてのみ説明しています)。別の例については、この論文をご覧ください. ここで、著者は、軌道をシミュレートし、実際のロボットの相互作用の数を減らすために、ロボットの順方向モデルを近似するガウス過程をポリシーと共に学習します。