彼の役割の 1 つは、HDFS 内の非常に大きなファイルを大量にコピーすることであるという仕事を書きました。FileUtil.copy() の使用は効率的ではないことがわかりました。
それを行うためのより効率的な方法はありますか?DistCp.java について聞きましたが、FileUtil.copy() よりも優れていますか? DistCp.java Cloudera の実装はありますか?
DistCp.java Clouderaの実装はありますか?
Clouderaの実装が何を意味するのかわからない。これは標準のHadoopインストールの一部であるため、CDHの一部でもある必要があります。DistCpコマンドを直接使用することもできます。DistCpコマンドは、内部でDistCp.javaクラスを呼び出してファイルをコピーします。
DistCp.javaについて聞いたのですが、FileUtil.copy()よりも優れていますか?
FileUtil.copy()メソッドはファイルを順番にコピーしますが、DistCpはMRジョブを生成してファイルをコピーします。これは、コピーが並行して行われるため、より効率的です。詳細については、 DistCpのドキュメントを確認してください。