service - Nagios: ホストがダウン -> アップした後、すべてのサービスがタイムアウトするようです

Question

Nagios に奇妙な問題があります。再起動後、すべてが完全に正常に動作します。その後、数時間後にホストが停止し、1 分後に再び起動します (以下の履歴ログを参照)。その後、すべてのサービスがタイムアウトで失敗します。

これは、すべてのサーバーで同時に発生するわけではありません。どのサーバーが失敗するかはかなりランダムに見えます。

履歴ログ:

[2013-06-26 19:19:07] SERVICE ALERT: HyperV 1;Check CPU HyperV 1;CRITICAL;SOFT;1;CHECK_NRPE: Socket timeout after 120 seconds.
[2013-06-26 19:17:27] HOST ALERT: HyperV 1;UP;SOFT;2;PING OK - Packet loss = 0%, RTA = 3.01 ms
[2013-06-26 19:16:17] HOST ALERT: HyperV 1;DOWN;SOFT;1;PING CRITICAL - Packet loss = 100%

私がこれまでに試したこと。

-タイムアウトを増やしました

- ホストチェックを変更し、失敗する前により頻繁にチェックされるようにしました (1 回ではなく 5 回)。

- コマンドラインからスクリプトを実行 -> また失敗 (Ubuntu の問題かも?)

- 両側のログでエラーをチェックしました (何も見つかりませんでした)

再起動後、すべてが再び正常になります。

システム情報:

- Nagios は Ubuntu 13.04 で実行されています

-一部のクライアントは、NSClient++ で別の Windows を実行しています

-バージョン 4.0 から 5.1 の ESX

プラグイン:

-check_nrpe

- Nagios Exchangeからの check_vmfs

私はそうです。質問することを躊躇しないでください。

Thx＆ベスト、

ピル

score 0 · Accepted Answer

Nagios の問題ではなく、ネットワークの問題があるようです。ケーブルの不良、NIC の障害、ルーティングの問題、スイッチのフラッピング、ARP テーブルのオーバーフローなど、さまざまな原因が考えられます。

これはすべてのホスト/サービスに影響し、断続的にそれ自体が解消されるため、まずローカル接続の問題を探し始めることをお勧めします。一部のアイテムにのみ影響し、他のアイテムに影響しない場合は、どのホストが共通のネットワークコンポーネントを持っているかを見つけて、そこをチェックします。

service - Nagios: ホストがダウン -> アップした後、すべてのサービスがタイムアウトするようです

1 に答える 1

Related

Reference