amazon-s3 - Amazon S3内で重複排除されたファイルストレージを実現する方法は？

Question

Amazon S3内で重複排除（シングルインスタンスストレージ）ファイルストレージを実現するための最良の方法を考えています。たとえば、同じファイルが3つある場合、そのファイルを1回だけ保存したいとします。これを実装するのに役立つライブラリ、API、またはプログラムはありますか？この機能はS3にネイティブに存在しますか？おそらく、ファイルハッシュなどをチェックするものです。

これを達成するために人々がどのようなアプローチを使用しているのか疑問に思います。

score 5 · Accepted Answer

これを行うには、おそらく独自のソリューションを展開できます。次のようなもの：

ファイルをアップロードするには:

SHA-1 以上を使用して、最初にファイルをハッシュします。
ハッシュを使用してファイルに名前を付けます。実際のファイル名は使用しないでください。
ディレクトリ構造を保存するために、ある種の仮想ファイルシステムを作成します。各ファイルは、計算されたハッシュを含む単純なテキストファイルにすることができます。この「ファイルシステム」は、データブロブストレージとは別に配置して、名前の競合を防ぐ必要があります (別のバケットなど)。

後続のファイルをアップロードするには:

ハッシュを計算し、データ BLOB ファイルがまだ存在しない場合にのみアップロードします。
すべてのファイルと同様に、ハッシュをコンテンツとしてディレクトリエントリを保存します。

ファイルを読み取るには:

仮想ファイルシステムからファイルを開いてハッシュを検出し、その情報を使用して実際のファイルを取得します。

また、固定サイズのブロックでファイルをアップロードし、上記のようにフルファイルレベルではなくブロックレベルで重複除外を行うことで、この手法をより効率的にすることもできます。仮想ファイルシステム内の各ファイルには、そのファイルのブロックチェーンを表す 1 つ以上のハッシュが含まれます。また、以前にアップロードされた別のファイルとわずかに異なるだけの大きなファイルをアップロードすると、ストレージとデータ転送が大幅に削減されるという利点もあります。

amazon-s3 - Amazon S3内で重複排除されたファイルストレージを実現する方法は？

1 に答える 1

Related

Reference