0

PROD から UAT (hadoop クラスター) にデータ/ファイルをコピーする必要がある状況があります。そのために'distcp'今使っています。しかし、それは永遠にかかっています。distcp は内部で map-reduce を使用しているため、spark を使用してプロセスを高速化する方法はありますか? Hive 実行エンジンを'TEZ'(を置き換えるmap-reduce) に設定できるように、実行エンジンを Spark に設定できdistcpますか? 'spark'または、distcp を気にしないクラスタ間でデータをコピーする他の方法はありますか?

そして、ここで私の 2 番目の質問が来ます (実行エンジンを map-reduce の代わりに spark に設定できると仮定しdistcpます。それ以外の場合は回答しないでください):- 私の知る限り、Spark は主にデータを保存するため、map-reduce よりも高速ですディスクからデータをロードする必要がないように、何度か処理する必要があるメモリ内。ここではクラスタ間でデータをコピーしているため、各ファイルがメモリに格納され、ネットワーク経由で送信され、コピー先のクラスタ ディスクにコピーされるため、1 つのファイルを複数回処理 (またはブロックまたは分割) する必要はありません。 、そのファイルのストーリーの終わり。では、主な機能を使用しない場合、Spark はなぜプロセスを高速化するのでしょうか?

4

2 に答える 2