10

世界中の 4 つまたは 5 つのサイトで同期を維持する大量のデータがあり、各サイトで約 0.5 テラバイトです。これは、1 日あたり約 1.4 ギガバイトずつ変化 (追加または変化) し、データは 4 つのサイトのいずれでも変化する可能性があります。

データの大部分 (30%) は重複したパッケージ (おそらくパッケージ化された JDK) であるため、解決策には、ローカル マシンにそのようなものが横たわっているという事実を拾い上げ、代わりにそれらを取得する方法を含める必要があります。他のサイトからのダウンロードについて。

バージョン管理の管理は問題ではありません。これはコードベースそのものではありません。

そのようなことに近づくソリューション(できればオープンソース)があるかどうかに興味がありますか?

rsync を使用する私の赤ちゃんのスクリプトは、もはやマスタードをカットしません。より複雑でインテリジェントな同期を行いたいと考えています。

ありがとう

編集:これはUNIXベースでなければなりません:)

4

7 に答える 7

12

ユニゾンは試しましたか?

私はそれで良い結果を得ました。それは基本的によりスマートなrsyncであり、おそらくあなたが望むものです。ここにファイル同期ツールを比較したリストがあります。

于 2008-10-24T15:19:44.927 に答える
5

BitTorrent の仕事のようですね。

各サイトの新しいファイルごとに、bittorrent シード ファイルを作成し、それを中央の Web アクセス可能なディレクトリに配置します。

次に、各サイトはすべてのファイルを (bittorrent 経由で) ダウンロードします。これにより、帯域幅の共有とローカル コピーの自動再利用が可能になります。

実際のレシピは必要に応じて異なります。たとえば、各ホストのファイルごとに 1 つの bittorrent シードを作成し、シード ファイルの変更時刻をファイル自体の変更時刻と同じに設定できます。毎日(毎時?)それを行うので、「make」のようなものを使用して、新しいファイルまたは更新されたファイルのみのシードファイルを(再)作成することをお勧めします。

次に、すべてのホストからすべてのシード ファイルを中央の場所 (「トラッカー ディレクトリ」) にコピーします。オプションは「新しい場合にのみ上書きする」です。これにより、すべてのファイルのすべての最新コピーの torrent シードのセットが取得されます。

次に、各ホストはすべてのシード ファイルをダウンロードし (ここでも、「新しい設定があれば上書きします」)、それらすべてに対して bittorrent のダウンロードを開始します。これにより、すべての新しい/更新されたファイルがダウンロード/再ダウンロードされます。

毎日すすぎ、繰り返します。

ところで、コメントで言ったように、「それ自体からのダウンロード」はありません。ファイルがローカル ホストに既に存在する場合、そのチェックサムが検証され、ダウンロードは行われません。

于 2008-10-24T15:19:47.593 に答える
2

Red Hat のGlobal Filesystemに沿って、すべての構造を各場所に複製するのではなく、すべてのサイトにまたがって複数のデバイスに分割する方法はどうでしょうか?

あるいは、LeftHand Networksなどの商用ネットワーク ストレージ システム(免責事項 - コストについてはわかりませんし、使用したこともありません)。

于 2008-10-24T15:49:28.267 に答える
1

非常に柔軟な機能をチェックしてください....かなりクールです。大規模な環境では使用していませんが、3 ノード システムでは完全に機能しているように見えました。

于 2009-06-30T08:31:18.860 に答える
1

多くのオプションがあります:

  • レプリケートされた DBをセットアップしてデータを保存することを試すことができます。
  • rsyncまたはlftpとカスタム スクリプトを組み合わせて使用​​しますが、それは適していません。
  • 最大圧縮でgitリポジトリを使用し、いくつかのスクリプトを使用してそれらの間で同期します
  • データの量はかなり大きく、おそらく重要であるため、専門家を雇ってカスタム開発を行ってください;)
于 2008-10-24T15:19:03.710 に答える
0

Foldershareの仕事のようですね

于 2008-10-24T15:26:21.450 に答える
0

detect-renamedrsync のパッチ ( http://samba.anu.edu.au/ftp/rsync/dev/patches/detect-renamed.diff )を試しましたか? 自分では試していませんが、リネームだけでなく重複ファイルも検出してくれるのか気になります。重複ファイルが検出されない場合は、パッチを修正して検出できるようにすることができると思います。

于 2008-10-25T11:41:41.503 に答える