私は強化学習を勉強していて、大学のコースのためにサットンの本を読んでいます。古典的な PD、MC、TD、および Q-Learning アルゴリズムのほかに、ポリシー勾配法と、意思決定問題を解決するための遺伝的アルゴリズムについて読んでいます。私はこれまでこのトピックについて経験したことがなく、ある手法を別の手法よりも優先する必要がある場合を理解するのに問題があります。いくつかのアイデアがありますが、よくわかりません。誰かが簡単に説明したり、特定の方法を使用する必要がある典型的な状況について何かを見つけることができる情報源を教えてもらえますか? 私が理解する限りでは:
- 動的計画法と線形計画法は、非常にコストがかかるため、MDP のアクションと状態がほとんどなく、モデルがわかっている場合にのみ使用してください。しかし、DP が LP よりも優れているのはいつですか?
- モンテカルロ法は、問題のモデルがなくてもサンプルを生成できる場合に使用されます。バイアスはありませんが、分散が大きくなっています。
- 時間差法は、MC 法で分散を小さくするために必要なサンプルが多すぎる場合に使用する必要があります。しかし、いつ TD を使用し、いつ Q-Learning を使用する必要がありますか?
- Policy Gradient および Genetic アルゴリズムは、継続的な MDP に適しています。しかし、一方が他方よりも優れているのはいつですか?
より正確には、学習方法を選択するには、プログラマーは次の質問を自問する必要があると思います。
- エージェントはオンラインまたはオフラインで学習しますか?
- 探索段階と開発段階を分けることはできますか?
- 十分な探索を行うことができますか?
- MDP の地平線は有限か無限か?
- 状態とアクションは連続していますか?
しかし、これらの問題の詳細が学習方法の選択にどのように影響するかはわかりません。RL メソッドについてある程度の経験を積んでいるプログラマーがいて、それらのアプリケーションをよりよく理解するのに役立つことを願っています。