システムの電源管理に取り組んでいます。私が最小化しようとしている目標は、消費電力と平均遅延です。両方の目的の線形加重和を持つ単一の目的関数があります。
C=w.P_avg+(1-w).L_avg, where w belongs to (0,1)
私はQ学習を使用して、重みwを変化させ、消費電力と平均遅延に異なる優先順位を設定することにより、パレート最適なトレードオフ曲線を見つけています。私はパレート最適曲線を取得します。私の目的は、現在、制約(たとえば、平均遅延L_avg)を提供し、指定された基準を満たすようにwの値を調整/検索することです。鉱山はオンラインアルゴリズムであるため、wの調整はオンラインで行う必要があります。
この点に関して何かヒントや提案をいただけますか?