Nagios に奇妙な問題があります。再起動後、すべてが完全に正常に動作します。その後、数時間後にホストが停止し、1 分後に再び起動します (以下の履歴ログを参照)。その後、すべてのサービスがタイムアウトで失敗します。
これは、すべてのサーバーで同時に発生するわけではありません。どのサーバーが失敗するかはかなりランダムに見えます。
履歴ログ:
[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%
私がこれまでに試したこと。
-タイムアウトを増やしました
- ホスト チェックを変更し、失敗する前により頻繁にチェックされるようにしました (1 回ではなく 5 回)。
- コマンドラインからスクリプトを実行 -> また失敗 (Ubuntu の問題かも?)
- 両側のログでエラーをチェックしました (何も見つかりませんでした)
再起動後、すべてが再び正常になります。
システム情報:
- Nagios は Ubuntu 13.04 で実行されています
-一部のクライアントは、NSClient++ で別の Windows を実行しています
-バージョン 4.0 から 5.1 の ESX
プラグイン:
-check_nrpe
- Nagios Exchangeからの check_vmfs
私はそうです。質問することを躊躇しないでください。
Thx&ベスト、
ピル