java - 2 つのリモートクラスタ間の DistCp フォールトトレランス

Question

同様の HDFS (両方とも MAPR クラスター) を使用して、あるクラスターから別のクラスターにディレクトリをコピーする必要があります。

DistCpJava APIを使用する予定です。しかし、ディレクトリ内のファイルの重複コピーを避けたかったのです。これらの操作が耐障害性があるかどうかを知りたいですか? つまり、接続が失われたためにファイルが完全にコピーされなかった場合、DistCp がファイルを適切にコピーするためにコピーを再度開始した場合はどうなりますか?

score 1 · Accepted Answer

distcpMapReduce を使用して、その配布、エラー処理と回復、およびレポートを実行します。

更新と上書きを参照してください

-overwrite オプションを使用して重複を回避できます。さらに、更新オプションも確認できます。ネットワーク接続が失敗した場合、接続が回復したら、上書きオプションで再開できます

上記のガイドリンクに記載されている -update および -overwrite の例を参照してください。

score 0 · Accepted Answer

リファクタリングされた distcp のリンクは次のとおりです: https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html

「@RamPrasad G」が述べたように、ネットワーク障害が発生した場合にdistcpをやり直す以外に選択肢はないと思います。

いくつかの良い読み物：

WebHDFS での Hadoop distcp ネットワーク障害

http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/

2 つの HA クラスター間の Distcp

http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/

DistCp を使用して S3 経由で Altiscale との間でデータを転送する

https://documentation.altiscale.com/transferring-data-using-distcp このページには、再試行を伴うシェルスクリプトへのリンクがあり、役に立つかもしれません。

注: 原作者に感謝します。

java - 2 つのリモート クラスタ間の DistCp フォールト トレランス

2 に答える 2

Related

Reference

java - 2 つのリモートクラスタ間の DistCp フォールトトレランス