amazon-ec2 - Hadoop セーフモードリカバリ - 時間がかかる

Question

Amazon EC2 でクラスターを実行しています。Hadoop のセットアップに cloudera スクリプトを使用しています。マスターノードで、以下のサービスを開始します。

609   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start namenode'
610   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start secondarynamenode'
611   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start jobtracker'
612 
613   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop dfsadmin -safemode wait'

スレーブマシンでは、以下のサービスを実行します。

625   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start datanode'
626   $AS_HADOOP '"$HADOOP_HOME"/bin/hadoop-daemon.sh start tasktracker'

私たちが直面している主な問題は、hdfs セーフモードの回復に 1 時間以上かかることであり、これが原因でジョブの完了が遅れています。

以下は、主なログメッセージです。

1. domU-12-31-39-0A-34-61.compute-1.internal 10/05/05 20:44:19 INFO ipc.Client: Retrying connect to server: ec2-184-73-64-64.compute-1.amazonaws.com/10.192.11.240:8020. Already tried 21 time(s).
2. The reported blocks 283634 needs additional 322258 blocks to reach the threshold 0.9990 of total blocks 606499. Safe mode will be turned off automatically.

ジョブトラッカーが開始されていないため、タスクトラッカーログに最初のメッセージがスローされます。hdfs セーフモードリカバリのため、ジョブトラッカーが起動しませんでした。

2 番目のメッセージは、回復プロセス中にスローされます。

私が間違っていることはありますか？通常の hdfs セーフモードリカバリにはどのくらいの時間がかかりますか? ジョブトラッカーが開始されるまでタスクトラッカーを開始しないことで、スピードアップはありますか? Amazon クラスターに既知の Hadoop の問題はありますか?

ご協力いただきありがとうございます。

score 1 · Accepted Answer

通常、セーフモードで費やされる時間は、クラスターのサイズに比例します。とはいえ、通常の時間は数時間ではなく、せいぜい数分のオーダーです。確認すべき点がいくつかあります。

すべてのデータノードが正しく起動していることを確認します。データノードが多数のブロックを報告するのに数秒または数分かかるのは正常です。データノードログをチェックして、起動中に何が起こっているかを確認します。
チェックインするデータノードの数を処理できるように、十分な数の名前ノードスレッド (hdfs-site.xml の dfs.namenode.handler.count) があることを確認します。デフォルトは 10 で、クラスターには問題ありません。最大 20 ノード程度。それを超えて、これを増やすことは理にかなっているかもしれません。これを示す再試行がデータノードログに記録される場合があります。これは、再試行メッセージが私に示しているようです (たとえば、21 回再試行します)。

お役に立てれば。

amazon-ec2 - Hadoop セーフモード リカバリ - 時間がかかる

1 に答える 1

Related

Reference

amazon-ec2 - Hadoop セーフモードリカバリ - 時間がかかる