1

ambari 1.7私は1 つの奇妙な問題に直面しています。最初はデータノードが開始されますが、数秒以内に自動的に停止します。データノードを再起動しようとすると起動しません。この問題を解決するのを手伝ってください。
次のようにデータノードを再起動するためのログ

2015-01-26 17:58:02,233 - Error while executing command 'start':
Traceback (most recent call last):
  File "/usr/lib/python2.6/site-packages/resource_management/libraries/script/script.py", line 123, in execute
    method(env)
  File "/var/lib/ambari-agent/cache/stacks/HDP/2.0.6/services/HDFS/package/scripts/datanode.py", line 37, in start
    datanode(action="start")
  File "/var/lib/ambari-agent/cache/stacks/HDP/2.0.6/services/HDFS/package/scripts/hdfs_datanode.py", line 55, in datanode
    create_log_dir=True
  File "/var/lib/ambari-agent/cache/stacks/HDP/2.0.6/services/HDFS/package/scripts/utils.py", line 102, in service
    not_if=service_is_up
  File "/usr/lib/python2.6/site-packages/resource_management/core/base.py", line 148, in __init__
    self.env.run()
  File "/usr/lib/python2.6/site-packages/resource_management/core/environment.py", line 149, in run
    self.run_action(resource, action)
  File "/usr/lib/python2.6/site-packages/resource_management/core/environment.py", line 115, in run_action
    provider_action()
  File "/usr/lib/python2.6/site-packages/resource_management/core/providers/system.py", line 241, in action_run
    raise ex
Fail: Execution of 'ulimit -c unlimited;  su -s /bin/bash - hdfs -c 'export HADOOP_LIBEXEC_DIR=/usr/hdp/current/hadoop-client/libexec && /usr/hdp/current/hadoop-client/sbin/hadoop-daemon.sh --config /etc/hadoop/conf start datanode'' returned 1. stdin: is not a tty
starting datanode, logging to /var/log/hadoop/hdfs/hadoop-hdfs-datanode-node1.out

Hadoop クラスターを再起動した後、同様の問題が発生します。/var/log/hadoop/hdfs/hadoop-hdfs-datanode-master.hadoopcluster.out からのログ ファイルは次のとおりです。

ulimit -a for user hdfs
core file size          (blocks, -c) unlimited
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 62510
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 128000
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 8192
cpu time               (seconds, -t) unlimited
max user processes              (-u) 65536
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited
4

1 に答える 1

0

問題を解決する方法は次のとおりです(完全な解決策ではありませんが、参考のためにここに記載します)。

数回の試行とグーグル検索の後、名前ノードとデータノードの間の不一致が原因である可能性があるため、リリースしました。

そこで、各データ ノードから HDFS ディレクトリ全体を削除しました。データ ノード ディレクトリの場所は、 から表示できますhdfs-site.xml

その後、コマンドでnamenodeをフォーマットしますhadoop namenode -format

それまでに、データノードを起動できましたが、namenode を起動できませんでした。

最後に、マスター マシンから name ノード ディレクトリを削除し、クラスタ全体を再起動しました。

今は問題なく動作していますが、必然的に古い HDFS の元のデータを失いました。

于 2016-08-12T06:44:47.733 に答える