私はq 学習にrlglue ベースの python-rlフレームワークを使用しています。私の理解では、エピソードの数にわたって、アルゴリズムは最適なポリシーに収束します (これは、どの状態でどのアクションを実行するかを示すマッピングです)。
質問 1: これは、多くのエピソード (たとえば 1000 以上) の後、基本的に同じ state:action マッピングを取得する必要があるということですか?
報酬 (または 100 エピソードの平均報酬) をプロットすると、このリンクの図 6.13 のようなグラフが得られます。
質問 2: アルゴリズムが何らかのポリシーに収束した場合、報酬が低下するのはなぜですか? 報酬が大幅に変わる可能性はありますか?
質問 3: さまざまな RL アルゴリズムの結果を比較するために使用できる標準的な方法はありますか?