3

すべての ms office、pdf、html、xml ファイルを共有ネットワークに増分バックアップしたいと考えています。私は 5 MB のチャンクでファイルを読み取ります。また、そのデータに対して MD5 を実行して、重複要因を考慮します。私の質問は、アップロード後に特定のファイルが変更され、変更されたデータを増分バックアップしたいということです。同じチャンクサイズを考慮すると、すべてのチャンクが異なっているように見え、すべてを再度アップロードする必要があります。では、重複除外のためのより良いアプローチはありますか?それとも、指定されたすべてのファイルの構造 (生の読み取り) を把握してから重複除外に取り組む方がよいでしょうか?

4

2 に答える 2

0

rsync とそのアルゴリズムを確認できます。

そうしないと、datadomain と同じようなことをしなければならない場合があります。特定のファイル内のオフセットとは無関係にデータ セグメントを識別できるように、可変チャンク サイズのチェックサム。ネットで検索して特許などを調べてください。

于 2013-05-05T06:42:51.113 に答える