loops - s3-dist-cp および hadoop distcp ジョブが EMR で無限にループする

Question

s3 から HDFS に 193 GB のデータをコピーしようとしています。s3-dist-cp と hadoop distcp に対して次のコマンドを実行しています。

s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/

hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/

これらをマスターノードで実行し、転送量もチェックしています。約 1 時間かかり、それをコピーした後、すべてが消去され、クラスター内の 4 つのコアインスタンスでディスク容量が 99.8% と表示され、hadoop ジョブが永久に実行されます。コマンドを実行するとすぐに、

16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%

これはすぐに印刷され、1 時間にわたってデータをコピーします。それは最初からやり直します。

16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%

ここで何か不足していますか？どんな助けでも大歓迎です。

また、ジョブが失敗してループしているかどうかを確認するために、マスターノードのログファイルはどこにありますか? ありがとう

loops - s3-dist-cp および hadoop distcp ジョブが EMR で無限にループする

2 に答える 2

Related

Reference