s3 から HDFS に 193 GB のデータをコピーしようとしています。s3-dist-cp と hadoop distcp に対して次のコマンドを実行しています。
s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFiles/
hadoop distcp s3a://PathToFile/file1 hdfs:///user/hadoop/S3CopiedFiles/
これらをマスターノードで実行し、転送量もチェックしています。約 1 時間かかり、それをコピーした後、すべてが消去され、クラスター内の 4 つのコア インスタンスでディスク容量が 99.8% と表示され、hadoop ジョブが永久に実行されます。コマンドを実行するとすぐに、
16/07/18 18:43:55 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:44:02 INFO mapreduce.Job: map 100% reduce 0%
16/07/18 18:44:08 INFO mapreduce.Job: map 100% reduce 14%
16/07/18 18:44:11 INFO mapreduce.Job: map 100% reduce 29%
16/07/18 18:44:13 INFO mapreduce.Job: map 100% reduce 86%
16/07/18 18:44:18 INFO mapreduce.Job: map 100% reduce 100%
これはすぐに印刷され、1 時間にわたってデータをコピーします。それは最初からやり直します。
16/07/18 19:52:45 INFO mapreduce.Job: map 0% reduce 0%
16/07/18 18:52:53 INFO mapreduce.Job: map 100% reduce 0%
ここで何か不足していますか?どんな助けでも大歓迎です。
また、ジョブが失敗してループしているかどうかを確認するために、マスター ノードのログ ファイルはどこにありますか? ありがとう