4

distcp がクラスタ間/クラスタ内のデータ転送に使用されることを理解しています。distcp を使用して、ローカル ファイル システムから HDFS にデータを取り込むことは可能ですか。file:///.... を使用して HDFS の外部のローカル ファイルを指すことができることは理解していますが、クラスター間/クラスター内転送と比較して、その信頼性と速度はどれくらいか。

4

1 に答える 1

2

Distcp は、hadoop クラスター内で実行される mapreduce ジョブです。Hadoop クラスターの観点では、ローカル マシンはローカル ファイル システムではありません。そうすると、 distcpローカルファイルシステムを使用できなくなります。別の方法として、Hadoop クラスターが読み取れるマシンに FTP サーバーを構成することもできます。パフォーマンスは、使用するネットワークとプロトコルに依存します (hadoop を使用した ftp のパフォーマンスは非常に低くなります)。

hdfs dfs -putコマンドを使用すると、少量のデータに適している可能性がありますが、distcp のように並行して動作しません。

于 2015-09-11T05:17:24.093 に答える