だから私はイベントの進行中の指標を持っています。それらは、成功または失敗としてタグ付けされます。だから私は3つの数字を持っています; 失敗、完了、合計。これは、次のような積み上げ棒グラフを使用して (Datadog で) 簡単に説明できます。
したがって、暗い部分は失敗です。そして、y スケールとスケールの赤い破線を見ることで、レートが問題で重要かどうかを人間に簡単に伝えることができます。これは、少なくとも一定時間 (10 分?) にわたって 60% を超える失敗率があり、この期間に例外的な率と見なすのに十分なイベントがあることを意味します。
だから私はで始まるある種の式を探しています: 失敗を合計で割ったもの (0 から 1 の間のスコアが得られます) で、これを何らかの方法で合計と再度乗算し、私が決定したいくつかのしきい値は、合計が十分に高いことを意味します自動アラートを受け取ります。
追加のクレジットとして、これが私が機能させようとしている実際の Datadog メトリクスです。
(sum:event{status:fail}.rollup(sum, 300) / sum:event{}.rollup(sum, 300))
そして、私は15分間監視しており、スコアが0.75を超えていることを警告しています. しかし、合計、カウント、平均、ロールアップ、またはカウントについてはわかりません。そして、このアラートは、イベントの総数が十分に低くなり、失敗率が高くても問題の証拠ではない夜間にメールを送信します。