小さな画像ホスティングを使用していますが、多くの重複コンテンツがあることに気付きました。新しくアップロードされたファイルがハッシュされ、既存の画像ハッシュデータベースと比較され、既に存在する場合は削除され、ユーザーに既存の画像リンクが表示されるチェックサムまたはハッシュコードを使用して、将来この問題を解消したいと考えています。オールインワンインスタンス
私のセットアップは、最低限の Node.js+ jQuery File Upload +2 ディレクトリ (1 つはフォーラム アップロード用、もう 1 つは直接 Web アップロード用) です。
各ディレクトリに数千または数百万のファイルが存在する可能性がある場合、これを行うのに最適な(高速で信頼性の高い)ハッシュとデータベースのセットアップは何ですか? MD5 または SHA1 はやり過ぎで、多くのリソースを必要とする可能性があると思います。もっと簡単な解決策があれば知りたいです。
統計 :
~1,000 の画像が毎日アップロード
~400 kb の平均画像サイズ
~35,000 サーバー内の画像
~30% の重複コンテンツ (MD5 を使用してテスト)