同様の HDFS (両方とも MAPR クラスター) を使用して、あるクラスターから別のクラスターにディレクトリをコピーする必要があります。
DistCp
Java APIを使用する予定です。しかし、ディレクトリ内のファイルの重複コピーを避けたかったのです。これらの操作が耐障害性があるかどうかを知りたいですか? つまり、接続が失われたためにファイルが完全にコピーされなかった場合、DistCp がファイルを適切にコピーするためにコピーを再度開始した場合はどうなりますか?
distcp
MapReduce を使用して、その配布、エラー処理と回復、およびレポートを実行します。
更新と上書きを参照してください
-overwrite オプションを使用して重複を回避できます。さらに、更新オプションも確認できます。ネットワーク接続が失敗した場合、接続が回復したら、上書きオプションで再開できます
上記のガイド リンクに記載されている -update および -overwrite の例を参照してください。
リファクタリングされた distcp のリンクは次のとおりです: https://hadoop.apache.org/docs/r2.7.2/hadoop-distcp/DistCp.html
「@RamPrasad G」が述べたように、ネットワーク障害が発生した場合にdistcpをやり直す以外に選択肢はないと思います。
いくつかの良い読み物:
WebHDFS での Hadoop distcp ネットワーク障害
http://www.ghostar.org/2015/08/hadoop-distcp-network-failures-with-webhdfs/
2 つの HA クラスター間の Distcp
http://henning.kropponline.de/2015/03/15/distcp-two-ha-cluster/
DistCp を使用して S3 経由で Altiscale との間でデータを転送する
https://documentation.altiscale.com/transferring-data-using-distcp このページには、再試行を伴うシェル スクリプトへのリンクがあり、役に立つかもしれません。
注: 原作者に感謝します。