CDH4 から CDH5 クラスターにデータをコピーしようとしています。CDH5 から distcp ジョブを送信すると、MR ジョブは受け入れられた状態になり、そこに留まります (複数回試しましたが、15 時間以上留まりました)。コピーしたいデータは 10MB 未満です。
以下は、私が使用しているセットアップと手順です。
ソース: CDH4、例 NodeName = cloudera4 宛先: CDH5、例 NodeName = Cloudera1
CDH5 で使用されるコマンド: hadoop distcp hftp://Cloudera4:50070/ hdfs://Cloudera1/
以下はコンソール出力です。
[root@Cloudera1-RD opt]# sudo -u hdfs hadoop distcp hftp://Cloudera4:50070/ hdfs://Cloudera1/
15/03/05 10:51:23 INFO tools.DistCp: Input Options: DistCpOptions{atomicCommit=false, syncFolder=false, deleteMissing=false, ignoreFailures=false, maxMaps=20, sslConfigurationFile='null', copyStrategy='uniformsize', sourceFileListing=null, sourcePaths=[hftp://Cloudera4:50070/], targetPath=hdfs://Cloudera1/, targetPathExists=true, preserveRawXattrs=false}
15/03/05 10:51:23 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.mb is deprecated. Instead, use mapreduce.task.io.sort.mb
15/03/05 10:51:27 INFO Configuration.deprecation: io.sort.factor is deprecated. Instead, use mapreduce.task.io.sort.factor
15/03/05 10:51:28 INFO client.RMProxy: Connecting to ResourceManager at Cloudera1:8032
15/03/05 10:51:29 INFO mapreduce.JobSubmitter: number of splits:18
15/03/05 10:51:29 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1425491750932_0010
15/03/05 10:51:30 INFO impl.YarnClientImpl: Submitted application application_1425491750932_0010
15/03/05 10:51:30 INFO mapreduce.Job: The url to track the job: http://Cloudera1:8088/proxy/application_1425491750932_0010/
15/03/05 10:51:30 INFO tools.DistCp: DistCp job-id: job_1425491750932_0010
15/03/05 10:51:30 INFO mapreduce.Job: Running job: job_1425491750932_0010
この MR ジョブは永久に Accepted 状態のままです。
私は何日もの間これにこだわっています。本当にありがとうございました。