3

システムの電源管理に取り組んでいます。私が最小化しようとしている目標は、消費電力と平均遅延です。両方の目的の線形加重和を持つ単一の目的関数があります。

C=w.P_avg+(1-w).L_avg,      where w belongs to (0,1)

私はQ学習を使用して、重みwを変化させ、消費電力と平均遅延に異なる優先順位を設定することにより、パレート最適なトレードオフ曲線を見つけています。私はパレート最適曲線を取得します。私の目的は、現在、制約(たとえば、平均遅延L_avg)を提供し、指定された基準を満たすようにwの値を調整/検索することです。鉱山はオンラインアルゴリズムであるため、wの調整はオンラインで行う必要があります。

この点に関して何かヒントや提案をいただけますか?

4

1 に答える 1

2

コミュニティには、多目的の強化学習ブランチがあります。

アイデアは1になります:

エージェントのファミリーを各目的に割り当てます。あるファミリのエージェントによって取得されたソリューションは、残りのファミリのエージェントによって取得されたソリューションと比較されます。ネゴシエーションメカニズムは、すべての目的を満たす妥協案を見つけるために使用されます。

また、あなたが興味を持つかもしれない論文があります:

電力系統の配電と電圧安定性のための強化学習による多目的最適化

ただし、公開URLは見つかりませんでした。

于 2012-11-19T22:58:47.217 に答える