Q ラーニングでは、即時報酬行列 R を使用して環境をモデル化します。つまり、学習に既知の行列 R を使用するということです。では、なぜ「Q 学習は未知の環境でも機能する」と言うのでしょうか。
1219 次
1 に答える
2
Q-Learning は、マルコフ決定プロセス (MDP) で最適なアクションを選択するためのポリシーを見つけるアルゴリズムです。環境は、報酬だけでなく、状態遷移確率によっても定義されます。MDP では、報酬が固定行列である必要はありません。任意の関数にすることができます。
状態遷移の確率と MDP の報酬がすべての状態とアクションについてわかっている場合、動的計画法の手法を使用して最適なポリシーを見つけることができるため、そのための強化学習は必要ありません。
動的プログラミング手法とは異なり、Q ラーニングは、報酬と状態遷移確率が不明な場合に機能します。つまり、アクションを実行した後にのみ報酬値が表示されます。
Q 学習は即時報酬行列 R を使用しません。状態でアクションa
を実行した後、状態と報酬値s
を受け取ることだけが必要です。s'
r
于 2016-11-05T15:19:41.203 に答える