Amazon S3内で重複排除(シングルインスタンスストレージ)ファイルストレージを実現するための最良の方法を考えています。たとえば、同じファイルが3つある場合、そのファイルを1回だけ保存したいとします。これを実装するのに役立つライブラリ、API、またはプログラムはありますか?この機能はS3にネイティブに存在しますか?おそらく、ファイルハッシュなどをチェックするものです。
これを達成するために人々がどのようなアプローチを使用しているのか疑問に思います。
Amazon S3内で重複排除(シングルインスタンスストレージ)ファイルストレージを実現するための最良の方法を考えています。たとえば、同じファイルが3つある場合、そのファイルを1回だけ保存したいとします。これを実装するのに役立つライブラリ、API、またはプログラムはありますか?この機能はS3にネイティブに存在しますか?おそらく、ファイルハッシュなどをチェックするものです。
これを達成するために人々がどのようなアプローチを使用しているのか疑問に思います。
これを行うには、おそらく独自のソリューションを展開できます。次のようなもの:
ファイルをアップロードするには:
後続のファイルをアップロードするには:
ファイルを読み取るには:
また、固定サイズのブロックでファイルをアップロードし、上記のようにフル ファイル レベルではなくブロック レベルで重複除外を行うことで、この手法をより効率的にすることもできます。仮想ファイル システム内の各ファイルには、そのファイルのブロック チェーンを表す 1 つ以上のハッシュが含まれます。また、以前にアップロードされた別のファイルとわずかに異なるだけの大きなファイルをアップロードすると、ストレージとデータ転送が大幅に削減されるという利点もあります。