machine-learning - 関数近似による Q ラーニングでは、手作りの機能を回避することは可能ですか?

Question

私は機械学習の背景知識がほとんどないため、私の質問がばかげているように思われる場合はご容赦ください。

私が読んだことに基づいて、現時点で最高のモデルフリー強化学習アルゴリズムは Q-Learning であり、エージェントの世界の各状態とアクションのペアに q 値が与えられ、各状態で最高のアクションq 値が選択されます。その後、q 値は次のように更新されます。

Q(s,a) = (1-α)Q(s,a) + α(R(s,a,s') + (max_a' * Q(s',a'))) α は学習レート。

明らかに、高次元の問題では、状態の数が天文学的に大きくなり、q 値テーブルの格納が実行不可能になります。

そのため、Q ラーニングを実際に実装するには、状態 (特徴) の一般化による Q 値近似を使用する必要があります。たとえば、エージェントが Pacman の場合、機能は次のようになります。

最も近い点までの距離
最も近いゴーストまでの距離
パックマンがトンネルに？

そして、すべての単一の状態の q 値の代わりに、すべての単一の機能の q 値のみが必要になります。

だから私の質問は：

強化学習エージェントが追加の機能を作成または生成することは可能ですか?

私が行ったいくつかの研究：

この投稿では、A Geramifard の iFDD メソッドについて言及しています。

これは「機能の依存関係を発見する」方法ですが、論文では一連のバイナリ機能から始めることを想定しているため、それが機能の生成であるかどうかはわかりません。

私が見つけた別の論文は、Playing Atari with Deep Reinforcement Learningが適切であり、「さまざまなニューラルネットワークアーキテクチャを使用して高レベルの機能を抽出する」ものでした。

私は論文を読みましたが、まだ彼らのアルゴリズムを肉付けする/完全に理解する必要があります. これは私が探しているものですか？

ありがとう

score 4 · Accepted Answer

あなたはすでにあなた自身の質問に答えているようです:)

特徴生成は、Q ラーニング (および SARSA) アルゴリズムの一部ではありません。ただし、前処理と呼ばれるプロセスでは、さまざまなアルゴリズム (そのうちのいくつかを示しました) を使用して、データから特徴を生成/抽出できます。さまざまな機械学習アルゴリズムを組み合わせることで、ハイブリッドアーキテクチャが生まれます。これは、問題に最適なものを調査する際に検討する用語です。

SARSA で機能を使用する例を次に示します(これは Q ラーニングに非常に似ています)。引用した論文がシナリオに役立つかどうかは、自分で判断する必要があります。機械学習の場合と同様に、アプローチは問題に大きく依存します。ロボット工学に携わっていて、個別の状態を手動で定義するのが難しい場合は、ニューラルネットワークが役立つ場合があります。(pacman の例のように) 自分でヒューリスティックを考えられる場合は、おそらく必要ないでしょう。

machine-learning - 関数近似による Q ラーニングでは、手作りの機能を回避することは可能ですか?

1 に答える 1

Related

Reference