問題:
Cloudera Manager では、ますます多くのデータ ノードが正常に動作しなくなります。
手がかり1:
タスクやジョブはなく、ここにはアイドル状態のデータ ノードがあるだけです。
上
-bash-4.1$ トップ トップ - 18:27:22 アップ 4:59、3 ユーザー、負荷平均: 4.55、3.52、3.18
タスク: 合計 139、実行中 1、睡眠中 137、停止中 1、ゾンビ 0
CPU: 14.8%us、85.2%sy、0.0%ni、0.0%id、0.0%wa、0.0%hi、0.0%si、0.0%st
メモリ: 合計 7932720k、使用済み 1243372k、空き 6689348k、バッファ 52244k
スワップ: 合計 6160376k、使用済み 0k、空き 6160376k、キャッシュ 267228k
PID ユーザー PR NI VIRT RES SHR S %CPU %MEM TIME+ コマンド
13766 ルート 20 0 2664m 21m 7048 S 85.4 0.3 190:34.75 Java
17688 ルート 20 0 2664m 19m 7048 S 75.5 0.3 1:05.97 Java
12765 ルート 20 0 2859m 21m 7140 S 36.9 0.3 133:25.46 Java
2909 mapred 20 0 1894m 113m 14m S 1.0 1.5 2:55.26 java
1850 ルート 20 0 1469m 62m 4436 S 0.7 0.8 2:54.53 パイソン
1332 ルート 20 0 50000 3000 2424 S 0.3 0.0 0:12.04 vmtoolsd
2683 hbase 20 0 1927m 152m 18m S 0.3 2.0 0:36.64 Java
手がかり2:
-bash-4.1$ ps -ef|grep 13766 root 13766 1850 99 16:01 ? 03:12:54 java -classpath /usr/share/cmf/lib/agent-4.6.3.jar com.cloudera.cmon.agent.DnsTest
手がかり3:
cloudera-scm-agent.log で、
[30/Aug/2013 16:01:58 +0000] 1850 Monitor-HostMonitor throttling_logger ERROR Timeout with args ['java', '-classpath', '/usr/share/cmf/lib/agent-4.6.3.jar] ', 'com.cloudera.cmon.agent.DnsTest'] なし [2013 年 8 月 30 日 16:01:58 + 0000] 1850 Monitor-HostMonitor throttling_logger エラー Java ベースの DNS 名の収集に失敗しました トレースバック (最新の呼び出しが最後) :
ファイル「/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py」、行 53、収集結果、stdout、stderr = self._subprocess_with_timeout(args, self._poll_timeout)
ファイル "/usr/lib64/cmf/agent/src/cmf/monitor/host/dns_names.py"、42 行目、_subprocess_with_timeout で SubprocessTimeout().subprocess_with_timeout(args, timeout) を返す
ファイル「/usr/lib64/cmf/agent/src/cmf/monitor/host/subprocess_timeout.py」、70 行目、subprocess_with_timeout 内
raise Exception("timeout with args %s" % args)
例外: 引数 ['java', '-classpath', '/usr/share/cmf/lib/agent-4.6.3.jar', 'com.cloudera.cmon.agent.DnsTest'] によるタイムアウト
"cloudera-scm-agent.log" 行 30357 の 30357 --100%-- col 1
背景:
すべてのノードを再起動すると、すべて問題ありませんが、30 分以上経過すると、健康状態が悪化します。
バージョン: Cloudera Standard 4.6.3 (20130812-1221 git: fa61cf8559fbefeb5af7f223fd02164d1a0adfdb で jenkins によってビルドされた #192)
/etc/hosts にすべてのノードを追加しました
インストールされている CDH は 4.3.1 です。
実際、これらのノードは固定 IP アドレスを持つ VM です。
助言がありますか?
ところで、com.cloudera.cmon.agent.DnsTest のソース コードはどこからダウンロードできますか?