こんにちは、q-learning を使用して次の問題をモデル化しました。エージェントのセットは、データをアップロードするために 2 つのアクセス ポイント (AP) 状態にアクセスできます。S={1,2} AP1 または 2 への接続を参照する状態のセット。A={remain, change}。シミュレーションの合計期間中、エージェントは 2 つの AP にアクセスできると想定しています。目標は、シミュレーション中に最大のデータをアップロードすることです。報酬は時間に依存する関数であり、次のように定義されます: R(t)= alpha*T+b、ここで T は時間間隔の長さで、b は時間とともに変化します。
この状況で、終了条件を事前定義された値へのqテーブルの収束として定義することは本当ですか? 搾取段階をどのように表現できますか (最終目標として定義されたステップがないため)?
よろしくお願いいたします。