distcp がクラスタ間/クラスタ内のデータ転送に使用されることを理解しています。distcp を使用して、ローカル ファイル システムから HDFS にデータを取り込むことは可能ですか。file:///.... を使用して HDFS の外部のローカル ファイルを指すことができることは理解していますが、クラスター間/クラスター内転送と比較して、その信頼性と速度はどれくらいか。
1 に答える
2
Distcp は、hadoop クラスター内で実行される mapreduce ジョブです。Hadoop クラスターの観点では、ローカル マシンはローカル ファイル システムではありません。そうすると、 distcpでローカルファイルシステムを使用できなくなります。別の方法として、Hadoop クラスターが読み取れるマシンに FTP サーバーを構成することもできます。パフォーマンスは、使用するネットワークとプロトコルに依存します (hadoop を使用した ftp のパフォーマンスは非常に低くなります)。
hdfs dfs -putコマンドを使用すると、少量のデータに適している可能性がありますが、distcp のように並行して動作しません。
于 2015-09-11T05:17:24.093 に答える