イベントの発生に基づいてコンピューティング ボードの電源管理を制御する電源管理の問題に取り組んでいます。コンピューティング ボードが要求 (画像) を処理するためのサービス プロバイダー (SP) として機能する電源管理に強化学習 (従来の Q 学習) を使用しています。SP はスマート カメラに接続され、Power Manager (PM) アルゴリズムがカメラで実行され、適切な電源コマンド (スリープ、ウェイクアップ) が SP に発行されます。スマート カメラは、イベントの発生に基づいて画像 (リクエスト) をキャプチャし、リクエスト (画像) のサービス キュー (SQ) を維持します。また、現在のワークロードを低または高に分類する ANN ベースのワークロード推定器もあります。. したがって、Q 学習アルゴリズムの状態空間は、s=(SR, SQ, SP) である Q(s,a) の合成を含みます。SR はワークロードの状態です。SQ はサービス キューの状態で、SP はサービス プロバイダーの状態です。現在のワークロード、キューの状態、およびサービス プロバイダーの状態に基づいて、PM は特定のコマンドを SP に発行します (スリープ、ウェイクアップ)。この決定は、次の段階で行われます。
- SPはアイドル状態です
- SP がスリープ状態に入っただけで、SQ>=1
- SP はスリープ状態で、SQ は 0 から 1 に遷移します。
アクションごとに、平均電力消費量とアクションによって発生した要求ごとの平均レイテンシーの加重合計で構成されるコストが割り当てられます。スリープ状態とアイドル状態の両方で、アクションには、事前定義されたタイムアウト値のリストからいくつかのタイムアウト値を選択することが含まれます。私の問題は次のとおりです。
SP がスリープ状態に入り、タイムアウト値を選択すると、タイムアウト値の間に一部の要求が到着する可能性があり、そのため SQ の状態が変化します。これにより、複合状態も変更されます (例: S(0,0,0) から S(0,N,0)。タイムアウト値の終わりに、PM は SP をウェイクアップすることを決定します (SQ>0 として)。 ) ウェイクアップ後、SP は要求を処理し、SQ =0 の場合、状態は (0,0,1) または (1,0,1) になります。次に、前の状態にコストを割り当てます。また、私の問題は、コストを状態 (0,0,0) に割り当てるか、(0,N,0) に割り当てるか?原則として、前の状態は (0,N,0) ですが、これはrequest は、キュー内のいくつかの要求の到着時に自動的に到達するため、この状態で実行されるアクションはなく、コストを割り当てるためのアクションはありません。