消費電力( p)と待ち時間(d )のパラメーターを持つ目的関数があります。レイテンシーの制約(秒)を考慮して、消費電力を最小限に抑えたい。最適化問題は、ラグランジュ関数で次のように表すことができます。
f(p,d) = p + L*d
ここで、Lはラグランジュ変数です。消費電力と遅延は互いに反比例し、前者を減らすと後者が増えるため、目的関数は相対的な重みで次のように書くこともできます。
f(p,d) = L*p + (1-L)*d
問題は、 「 d秒の遅延制約がある場合、変数pを最小化できるLの適切な値を見つけるにはどうすればよいですか?」です。。この目的のために強化学習を使用したいと思います。各状態で、システムが決定を下し、上記の機能に関して次の状態の前のアクションにコストを割り当てます。すべてのアクションにより、要求の処理に特定の電力消費と遅延が発生します。目標は、遅延の制約がある場合に消費電力を最小限に抑えることです。この点に関する提案/ヒントは高く評価されます。