複数のコンピューターのデータをフォルダーに保存しています。多くのフォルダーには、500 K から 125 MB のサイズのファイルが 40 から 100 G 含まれています。アーカイブする必要がある 4 TB のファイルがいくつかあり、各コンピューターに保存されているメタ データに応じて、未定義のメタ データ システムを構築します。
すべてのシステムで Linux が実行されており、Python を使用したいと考えています。ファイルをコピーしてアーカイブする最良の方法は何ですか。
ファイルを分析し、メタデータ テーブルを埋めるプログラムが既にあり、それらはすべて Python で実行されています。私たちが理解する必要があるのは、データを失うことなくファイルを正常にコピーする方法と、ファイルが正常にコピーされたことを確認する方法です。
rsync と unison を使用して subprocess.POPEn を使用してそれらを実行することを検討しましたが、これらは本質的に同期ユーティリティです。これらは基本的に一度だけコピーされますが、適切にコピーされます。ファイルがコピーされると、ユーザーは新しいストレージ システムに移動します。
私の心配は、1) ファイルがコピーされるときに破損があってはならないことです。2) ファイルのコピーは効率的である必要がありますが、速度は期待できません。LAN は 10/100 で、ポートはギガビットです。
組み込むことができるスクリプト、または提案はありますか。すべてのコンピューターで ssh-keygen が有効になっているため、パスワードなしで接続できます。
ディレクトリ構造は、古いコンピュータと非常によく似た新しいサーバーで維持されます。