2

私は Q ラーニングの研究を始めたばかりで、Q ラーニングを使用して問題を解決する可能性を確認しています。

問題: データの特定の組み合わせを検出することになっています。システムへの入力として機能する 4 つの行列があり、入力を既に分類しています (各入力は Low (L) または High (H) のいずれかになります)。LLLH、LLHH、HHHH など、特定のタイプの入力を検出する必要があります。

注: 1) LLLH は、L の最初の入力、2 番目の入力が L、3 番目の入力が L、4 番目の入力が H であることを意味します。2) 各入力タイプを状態としてラベル付けしました。たとえば、LLLL は状態 1、LLLH は状態 2 などです。

私が Q-learning で研究したことは、ほとんどの場合、エージェントが R-matrix から Q-matrix を学習して作成するのを容易にする 1 つの目標 (目標として 1 つの状態のみ) を持っているということです。今私の問題では、多くの目標があります(多くの状態が目標として機能し、検出する必要があります)。状態を設計する方法、多くの目標を設定して報酬マトリックスを作成する方法、エージェントが学習する方法がわかりません。このような状況で Q ラーニングを使用するにはどうすればよいか教えてください。考慮に入れると、私は20以上の州で16の目標を持っています!

上で述べたように、q-learning とは何か、状態と目標がどのように機能するか、Q_matrix の計算 (どのように学習するか) を知っています。私の問題をq-learningに関連付けるために..必要な状態の数と、多くの目標があるため、報酬にラベルを付ける方法。

少なくとも、多くの目標を持つ報酬マトリックスを作成するにはどうすればよいかについて助けが必要です

4

2 に答える 2

0

少なくとも、多くの目標を持つ報酬マトリックスを作成するにはどうすればよいかについて助けが必要です

最も簡単な方法は、各目標に対して報酬を作成し、それらの報酬の加重合計を作成して合計報酬を作成することです。

Rtot = w1 * R1 + w2 * R2 + ... + wn * Rn

次に、各報酬をどのように重み付けするかを決定できます。エージェントは毎回異なることを学習しようとするため、エージェントの最終的な動作に影響します。

「多次元報酬RL」または「多基準RL」と呼ばれる、より複雑な方法があります。それらをグーグルで検索して、関連する論文を見つけることができます。

于 2013-12-26T23:27:24.287 に答える