2

かなり大量のデータベース データをテキスト形式で、DBMS にロードする前に、ソース管理された環境が必要です。私たちは GITHUB を使用してきました。しかし、彼らは、リポジトリが 1 ギガバイト未満であり、何百もあると想定しています。

CVS または SVN の可能性がありますが、バージョンの追跡は重要です。データは非常に静的であり、低レートでのみアクセスされます。たとえば、一部の場合は週に 1 回、それ以上の場合は月に 1 回です。

これを行うための提案された場所/サービスはありますか? 無料である必要はありません。喜んで妥当な金額を支払います。

4

1 に答える 1

0

この種の量のデータは、バージョン管理システムと互換性がないことを確認します (履歴を記録するために作成されました。つまり、ほとんどがテキスト ファイルと小さなバイナリ ファイルの進化です)。

クローンがすべてのリポジトリをクローンする分散型VCSとは互換性がありません。

このタイプのストレージについては、クラウド サービスを検討する必要があります。


OP は次のように抗議 (反対票) します。

GitHub のファイル サイズ制限が非常に小さいため、ZIP 圧縮で実行したことを除けば、それらは通常の ASCII です。
それらはめったに変更されず、内容が変更されると、ファイル内のほんの数行になります。
バージョン管理とはまさにそのことです。ASCII のどの 0.005% が変更されましたか? 誰が変更したのですか?いつ?

私はそれを維持します:

  • 数百メガバイトは、そこにあるほとんどのソース管理レポプロバイダーと互換性がありません (ほとんどの社内エンタープライズレポとも互換性がなく、私は企業にいます)
  • それらを zip ファイルに入れることは、バージョン管理ツール システムが差分を記録できないという点で実用的ではありません。

別々にしておく必要があります:

  • データ(確かに GitHub ではなく、プレーン テキスト ファイルの大きなコンテンツとして「別の場所」に保存されます)
  • 必要なメタデータ(作成者、変更日)、「シェル」データ (つまり、実際には他の場所に置かれた実際のファイルへの「参照」または一種の「シンボリック リンク」であるファイル) に関連して通常の git リポジトリに保存されます)

それを提供する Git に基づく 1 つのシステムはgit-annexであり、(実装されている場合) git-annex アシスタントを使用して独自のクラウド ストレージを使用します。ロードマップを参照してください。

于 2012-09-26T06:50:47.237 に答える