0

彼の役割の 1 つは、HDFS 内の非常に大きなファイルを大量にコピーすることであるという仕事を書きました。FileUtil.copy() の使用は効率的ではないことがわかりました。

それを行うためのより効率的な方法はありますか?DistCp.java について聞きましたが、FileUtil.copy() よりも優れていますか? DistCp.java Cloudera の実装はありますか?

4

1 に答える 1

2

DistCp.java Clouderaの実装はありますか?

Clouderaの実装が何を意味するのかわからない。これは標準のHadoopインストールの一部であるため、CDHの一部でもある必要があります。DistCpコマンドを直接使用することもできます。DistCpコマンドは、内部でDistCp.javaクラスを呼び出してファイルをコピーします。

DistCp.javaについて聞いたのですが、FileUtil.copy()よりも優れていますか?

FileUtil.copy()メソッドはファイルを順番にコピーしますが、DistCpはMRジョブを生成してファイルをコピーします。これは、コピーが並行して行われるため、より効率的です。詳細については、 DistCpのドキュメントを確認してください。

于 2011-12-14T14:44:50.233 に答える