6

Riemann と Riemann-health を使用してサーバーを監視しています。ただし、CPU が非常に短い時間ピークに達したため、かなり多くの CPU クリティカル警告が表示されます。これは、知る必要さえないと思います。私の理解では、一定の CPU 使用率が高いと平均負荷が増加し、これも報告され、より便利に聞こえます。

CPU のレポートを無効にしたくありません。すべてのレベルを問題ないと見なす必要があります。可能であれば、Riemann サーバー上のイベントを変更したいので、すべてのサーバーを変更する必要はありません。

ここでリーマン設定: https://gist.github.com/iGEL/e352764a8c559440c851

4

1 に答える 1

0

完全な解決策はありませんが、理論的には、関数を介して CPU 関連のイベントをフィルター処理し、次のようwhereに状態を無条件に "ok" に設定できるはずです。with

(streams
    (where (service #"cpu")
        (with :state "ok" index)))

一方、負荷平均が高いということは、多数のプロセスが IO を待機していることも意味するため、負荷平均に依存することはお勧めできません。

CPU アラートをサイレンシングする代わりに、CPU が X 時間単位を超えて正常な状態でない場合にのみアラートを出すことができます。さらに良いのは、クライアントに影響を与える問題 (応答の遅延、http ステータス コード、エラー レベルなど) を表す高レベルのメトリックでアラートを出すことです。結局のところ、CPU の使用率が高くてもシステムに影響がない場合は、アラートが発生する可能性があります。ただのノイズ。

于 2015-12-01T05:33:45.457 に答える