PROD から UAT (hadoop クラスター) にデータ/ファイルをコピーする必要がある状況があります。そのために'distcp'
今使っています。しかし、それは永遠にかかっています。distcp は内部で map-reduce を使用しているため、spark を使用してプロセスを高速化する方法はありますか? Hive 実行エンジンを'TEZ'
(を置き換えるmap-reduce
) に設定できるように、実行エンジンを Spark に設定できdistcp
ますか? 'spark'
または、distcp を気にしないクラスタ間でデータをコピーする他の方法はありますか?
そして、ここで私の 2 番目の質問が来ます (実行エンジンを map-reduce の代わりに spark に設定できると仮定しdistcp
ます。それ以外の場合は回答しないでください):- 私の知る限り、Spark は主にデータを保存するため、map-reduce よりも高速ですディスクからデータをロードする必要がないように、何度か処理する必要があるメモリ内。ここではクラスタ間でデータをコピーしているため、各ファイルがメモリに格納され、ネットワーク経由で送信され、コピー先のクラスタ ディスクにコピーされるため、1 つのファイルを複数回処理 (またはブロックまたは分割) する必要はありません。 、そのファイルのストーリーの終わり。では、主な機能を使用しない場合、Spark はなぜプロセスを高速化するのでしょうか?