prometheus-alertmanager - ディスクの Prometheus アラート/ルール (IOP、読み取り/書き込みレイテンシー、負荷) は適切ですか?

Question

得られた結果のために、このルールがこのように問題ないかどうかはわかりません。良さそうに見えるか、より良い提案があるかどうか、誰かに教えてもらえますか？私は 7 時間間隔のパターン負荷 > 6 で観察していますが、少し奇妙です。

ロード

alert: instance_load
expr: node_load5{instance=~".*:9100"} > 6
for: 1m
labels:
severity: critical
annotations:
description: 'On {{ $labels.job }} system Load average is too High: {{ $value }}.'
monitor: ""
runbook: ""
summary: '{{ $labels.job }} System Load is too High.'

ディスクレイテンシ R/W

alert: instance_disk_read_latency
expr: (rate(node_disk_read_time_seconds_total[5m]) / rate(node_disk_reads_completed_total[5m])) > 0.015
for: 5m
labels:
severity: warning
annotations:
description: 'High read latency observed for device: {{ $labels.device }} with a
value of: {{ humanizeDuration $value }} on node: {{ $labels.alias }}. The average
value of the Avg. Disk sec/Read performance counter should be under 10 milliseconds.
The maximum value of the Avg. Disk sec/Read performance counter should not exceed
50 milliseconds.'
monitor: ""
runbook: ""
severity: warning
summary: 'High read latency observed for device: {{ $labels.device }} on: {{ $labels.alias
}}.'

alert: instance_disk_write_latency
expr: (rate(node_disk_write_time_seconds_total[5m]) / rate(node_disk_writes_completed_total[5m])) > 0.015
for: 5m
labels:
severity: warning
annotations:
description: 'High write latency observed for device: {{ $labels.device }} with
a value of: {{ humanizeDuration $value }} on node: {{ $labels.alias }}.'
monitor: ""
runbook: ""
severity: warning
summary: 'High write latency observed for device: {{ $labels.device }} on: {{ $labels.alias
}}.'

ディスク IOP

 alert: instance_disk_iops
    expr: sum by(alias, env) (rate(node_disk_reads_completed_total[5m]) + rate(node_disk_writes_completed_total[5m])) > 500
    for: 5m
    labels:
    severity: warning
    annotations:
    description: 'Server Disk IOPs {{ $labels.alias }} has a value of: {{ humanize
    $value }} over > 500 I/O ops/sec (IOPs).'
    monitor: ""
    runbook: ""
    summary: '{{ $labels.job }} Server Disk IOPs over 500 I/O ops/sec (IOPs).'

敬具、

prometheus-alertmanager - ディスクの Prometheus アラート/ルール (IOP、読み取り/書き込みレイテンシー、負荷) は適切ですか?

0 に答える 0

Related

Reference