この単純な Prometheus アラートを構成しました
ALERT MyServiceDown
IF my_custom_metric == 0
FOR 15s
シナリオは次のとおりです。
- 正しいランタイムでは my_custom_metric は 1 で、MyServiceDown アラートは [アラート] タブで緑色です。
- 次に my_custom_metric 0 を設定すると、Propetheus はそれを 0 として取得します。これは [グラフ] -> [コンソール] タブで確認できます。
- MyServiceDown はすぐに Pending (黄色) になり、15 秒後に Firing (赤色) になります。
- 次に、「バグを修正」すると、my_custom_metric が再び 1 になり、MyServiceDown アラートが緑色になります。
ここに奇妙な部分があります。my_custom_metric が再び 0 になるように、アプリを 2 回壊します。グラフ -> コンソールに表示されます。ただし、 MyServiceDown アラートは保留中または発火することはありません。Prometheus を再起動すると、すべて正常に動作しますが、1 回だけです。
私は何を間違っていますか?