machine-learning - 電源管理のための強化学習

Question

イベントの発生に基づいてコンピューティングボードの電源管理を制御する電源管理の問題に取り組んでいます。コンピューティングボードが要求 (画像) を処理するためのサービスプロバイダー (SP) として機能する電源管理に強化学習 (従来の Q 学習) を使用しています。SP はスマートカメラに接続され、Power Manager (PM) アルゴリズムがカメラで実行され、適切な電源コマンド (スリープ、ウェイクアップ) が SP に発行されます。スマートカメラは、イベントの発生に基づいて画像 (リクエスト) をキャプチャし、リクエスト (画像) のサービスキュー (SQ) を維持します。また、現在のワークロードを低または高に分類する ANN ベースのワークロード推定器もあります。. したがって、Q 学習アルゴリズムの状態空間は、s=(SR, SQ, SP) である Q(s,a) の合成を含みます。SR はワークロードの状態です。SQ はサービスキューの状態で、SP はサービスプロバイダーの状態です。現在のワークロード、キューの状態、およびサービスプロバイダーの状態に基づいて、PM は特定のコマンドを SP に発行します (スリープ、ウェイクアップ)。この決定は、次の段階で行われます。

SPはアイドル状態です
SP がスリープ状態に入っただけで、SQ>=1
SP はスリープ状態で、SQ は 0 から 1 に遷移します。

アクションごとに、平均電力消費量とアクションによって発生した要求ごとの平均レイテンシーの加重合計で構成されるコストが割り当てられます。スリープ状態とアイドル状態の両方で、アクションには、事前定義されたタイムアウト値のリストからいくつかのタイムアウト値を選択することが含まれます。私の問題は次のとおりです。

SP がスリープ状態に入り、タイムアウト値を選択すると、タイムアウト値の間に一部の要求が到着する可能性があり、そのため SQ の状態が変化します。これにより、複合状態も変更されます (例: S(0,0,0) から S(0,N,0)。タイムアウト値の終わりに、PM は SP をウェイクアップすることを決定します (SQ>0 として)。 ) ウェイクアップ後、SP は要求を処理し、SQ =0 の場合、状態は (0,0,1) または (1,0,1) になります。次に、前の状態にコストを割り当てます。また、私の問題は、コストを状態 (0,0,0) に割り当てるか、(0,N,0) に割り当てるか?原則として、前の状態は (0,N,0) ですが、これはrequest は、キュー内のいくつかの要求の到着時に自動的に到達するため、この状態で実行されるアクションはなく、コストを割り当てるためのアクションはありません。

score 0 · Accepted Answer

Q ラーニングはマルコフ決定プロセス (MDP) に適用されます。MDP では、特定の状態でアクションを実行すると、新しい状態への決定論的な遷移が発生します。

あなたが説明した問題が部分的に観察可能なマルコフ決定プロセス (POMDP) なのか MDP なのかは明確ではありません。POMDP (キューの状態に関する情報なしでスリープまたはウェイクの決定を下している) がある場合、問題の解決は困難です。

システムの状態を観察できるときにのみスリープタイムアウトの決定を行っている場合は、MDP を使用しています。この場合、アクションを選択する次の状態に到達したときにのみ、Q マトリックスを更新する必要があります。

あなたの例でイベントのシーケンスを理解する方法は次のとおりです。

システムは (0,0,0) の状態でスリープしています
リクエストはキューに到着しますが、システムはまだスリープ状態です - (0,N,0)。
システムが起動する - (0,N,1) または (1,N,1)
システムはリクエストを処理します - (0|1,0,1)

ステップ 4 の後、システムは別のタイムアウト決定を行い、Q 行列を更新する必要があります。現在の状態は (0|1,0,1) であり、この状態を Q 学習アルゴリズムで使用する必要があります。

ただし、(0|1,0,1) で Q マトリックスを更新しても、システムがスリープ中に到着した N 個のリクエストを処理するのにかかった時間が考慮されないのではないかと心配しています。おそらく、この問題に対処するための多くのオプションがありますが、そのほとんどは、問題の状態空間を再構築することを含むと思われます。これを行う 1 つの方法は、報酬関数で N 個のリクエストを考慮することです。システムが、目覚めたときに多数のリクエストを見つけた場合、直前のアクションに即座にペナルティを課す必要があります。

machine-learning - 電源管理のための強化学習

1 に答える 1

Related

Reference