0

ここ数日でこの問題が発生し始めました。Ganglia gemtad プロセスが SIGSEGV (segfault) で開始から 5 分以内に終了する

これはここ数か月から安定していたので、何が変わったのかわかりません。

Version - gmetad 3.7.1

/var/log/messagesまたは/var/log/secure のどちらにも、コア ダンプや gmetad に固有のものは見当たりません。

今回のイベント時のシステムスナップ(上から)

load average: 1.97, 0.99, 0.42

メモリーも結構良さそう

 free -m
             total       used       free     shared    buffers     cached
Mem:          7989       3624       4364          0        333       2562
-/+ buffers/cache:        728       7260
Swap:         4095          0       4095

gmetadをフォークして監視するスーパーバイオードプロセスがあります-

ここにスーパーバイザーのログがあります

2016-10-20 14:34:55,707 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:55,707 INFO received SIGCLD indicating a child quit
2016-10-20 14:34:57,712 INFO spawned: 'gmetad' with pid 24561
2016-10-20 14:34:59,929 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:34:59,929 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:02,932 INFO spawned: 'gmetad' with pid 24593
2016-10-20 14:35:04,897 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:04,897 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:08,903 INFO spawned: 'gmetad' with pid 24618
2016-10-20 14:35:11,257 INFO exited: gmetad (terminated by SIGSEGV; not expected)
2016-10-20 14:35:11,257 INFO received SIGCLD indicating a child quit
2016-10-20 14:35:12,257 INFO gave up: gmetad entered FATAL state, too many start retries too quickly

特に gmetad でこの種の問題に直面した人はいますか? ポインタに感謝します。

4

1 に答える 1

0

問題を特定して解決することができました。

いくつかの重要なステップ/調査結果 -

  1. gmetad.conf で「debug_level」を > 1 に変更して、gmetaa をフォアグラウンドで実行し、その動作に関する詳細なログを吐き出します。
  2. 特定の data_source の特定のノードのファイルを処理しようとしていたときに、gmetad プロセスがまったく同じ時点で強制終了されていることがわかりました。
  3. gmetad.conf から他のすべての「data_source」をコメントアウトして、問題のある data_source->node を特定することができます。
  4. 問題のあるノードを特定した後、/path/to/rrd/node_dir/file_with_issue またはディレクトリ全体を削除しました。(これはデータの損失であるため、より良い方法を見つける必要があります)
  5. debug_level を元に戻し、gmetad を再起動してください!

私の場合、ファイル名を特定するには、「part_max_used.rrd」が /path/to/ganglia/rrds/node_name の下のファイル名であり、SIGSEGV の根本的な原因でした

お役に立てれば -)

于 2016-10-20T21:14:57.930 に答える