algorithm - 異常なリソース消費を確実に検出する方法は？

Question

この質問は、同様の問題のクラス全体に関するものですが、具体的な例として質問します。

内容が変動するファイルシステムを備えたサーバーがあります。このファイルシステムの使用可能なスペースを監視して、いっぱいにならないようにする必要があります。議論のために、それがいっぱいになると、サーバーがダウンしたとしましょう。

それが何であるかは実際には問題ではありません。たとえば、「作業」のキューである可能性があります。

「通常の」操作中、使用可能なスペースは「通常の」制限内で変化しますが、次のような問題が発生する可能性があります。

作業を追加する他の（場合によっては外部の）コンポーネントが制御不能になる可能性があります
作業を削除する一部のコンポーネントが捕捉されますが、検出されないままです

プロセスの統計的特性は基本的に不明です。

私が探しているのは、利用可能なスペースの定期的な測定値を入力として受け取り（入力の代替提案を歓迎します）、出力として、物事が「異常」でファイルシステムが「」の場合にアラームを生成するアルゴリズムです。いっぱいになる可能性があります」。誤検知を回避することは明らかに重要ですが、誤検知を回避することとほぼ同じくらい重要であり、アラームを受信するシステム管理者の脳を麻痺させることを回避します。

根本的な問題により多くのストレージスペースを投入するなどの代替ソリューションがあることを感謝しますが、実際には1000回では不十分な場合があります。

保存された履歴測定値を考慮するアルゴリズムは問題ありませんが、履歴データの量を最小限に抑えるオンザフライアルゴリズムが推奨されます。

私はフランクの答えを受け入れました。そして今、彼の参考文献を深く研究するために画板に戻っています。

興味深いのは、順番ではなく、3つのケースがあると思います。

「ハロッズの販売が始まったばかり」のシナリオ：1秒の解像度では「ダイヤル外」であるが、リソース枯渇の本当の危険性を表していない活動のピーク。
「地球温暖化」シナリオ:(比較的）安定した成長を計画する必要があります。と
「Googleは私にインデックスの一方的なコピーを送っています」シナリオ：これは、私がそれを止めるために何かをしない限り、比較的短い順序で私のすべてのリソースを使い果たします。

これは、システム管理者の観点から、（私が思うに）最も興味深く、やりがいのある最後のものです。

score 1 · Accepted Answer

それが実際に作業の待ち行列に関連している場合、待ち行列理論が答えへの最良のルートである可能性があります。

一般的なケースでは、履歴データに対して (複数の?) 線形回帰を試みて、リソース使用量に統計的に有意な上昇傾向があり、それが続くと問題につながる可能性があるかどうかを検出することができます (また、この手法で問題が発生し続ける期間を予測するには、「問題」のしきい値を設定し、傾向の傾きを使用して、問題が発生するまでの時間を決定します)。ただし、最初に発見できる統計的に有意な関係があるかどうかを確認するには、これと収集した変数をいじる必要があります。

まったく別のトピック (地球温暖化) を扱っていますが、tamino のブログ (tamino.wordpress.com) は、既知の情報と未知の情報に満ちたデータの統計分析に関する非常に優れたリソースであることがわかりました。たとえば、この投稿を参照してください。

編集：私のコメントによると、この問題はGWの問題に多少似ていると思います。平均するとゼロになる短期的な活動のバーストと、関心のある長期的な傾向が重なり合っています。また、おそらく複数の長期的な傾向があり、それは時々変化します。Tamino はこれに適した手法を説明していますが、残念ながら私が考えている投稿が見つかりません。これには、データに沿って回帰をスライドさせ (ノイズの多いデータに当てはめた複数の線を想像してください)、データに変曲点を選択させることが含まれます。これができれば、トレンドの大きな変化を特定できる可能性があります。残念ながら、重要性を得るには多くのデータを蓄積する必要があるため、事後的にしか特定できない場合があります. しかし、資源の枯渇を食い止めるにはまだ間に合うかもしれません。

algorithm - 異常なリソース消費を確実に検出する方法は？

1 に答える 1

Related

Reference