11

(関数近似の代わりに) ルックアップ テーブルを使用する古典的な Q 学習アルゴリズムは、動的計画法と同等ですか?

4

3 に答える 3

22

Sutton & Barto の本から ( Reinforcement Learning: An Introduction, chapter 4 )

動的計画法 (DP) という用語は、マルコフ決定プロセス (MDP) として環境の完全なモデルが与えられた場合に最適なポリシーを計算するために使用できるアルゴリズムの集合を指します。古典的な DP アルゴリズムは、完全なモデルを仮定しているという理由と計算コストが高いという理由の両方で、強化学習における有用性は限られていますが、理論的には依然として重要です。

したがって、どちらも同じ動作原理 (表形式の強化学習/動的プログラミングまたは近似 RL/DP のいずれかを使用) を共有していますが、従来の DP と従来の RL の主な違いは、最初にモデルが既知であると仮定することです。これは基本的に、遷移確率 (状態 s から状態 s の与えられたアクション a への変化の確率を示す) と期待される即時報酬関数を知ることを意味します。

反対に、RL メソッドでは、オンラインまたはオフラインで収集された (アルゴリズムに応じて) 一連のサンプルにアクセスする必要があるだけです。

もちろん、RL と DP の間に配置できるハイブリッドな方法があります。たとえば、サンプルからモデルを学習し、そのモデルを学習プロセスで使用する方法などです。

注: いくつかのコメントで指摘されているように、動的プログラミングという用語は、RL に関連する一連の数学的最適化手法に加えて、「一般的なアルゴリズム パターン」を指すためにも使用されます。どちらの場合も基本は同じですが、文脈によって意味が異なる場合があります。

于 2016-08-17T08:24:02.800 に答える