reinforcement-learning - Q学習アルゴリズム

翻译自：https://stackoverflow.com/questions/41042658 2016-12-08T15:09:43.413

469 次

こんにちは、q-learning を使用して次の問題をモデル化しました。エージェントのセットは、データをアップロードするために 2 つのアクセスポイント (AP) 状態にアクセスできます。S={1,2} AP1 または 2 への接続を参照する状態のセット。A={remain, change}。シミュレーションの合計期間中、エージェントは 2 つの AP にアクセスできると想定しています。目標は、シミュレーション中に最大のデータをアップロードすることです。報酬は時間に依存する関数であり、次のように定義されます: R(t)= alpha*T+b、ここで T は時間間隔の長さで、b は時間とともに変化します。

この状況で、終了条件を事前定義された値へのqテーブルの収束として定義することは本当ですか? 搾取段階をどのように表現できますか (最終目標として定義されたステップがないため)?

よろしくお願いいたします。

reinforcement-learning - Q学習アルゴリズム

0 に答える 0

Related

Reference