たとえば、さまざまなクライアントから送信されたファイルを処理するアプリケーションがあります。クライアントは毎日大量のファイルを送信し、それらのファイルのコンテンツをシステムにロードします。ファイルの形式は同じです。与えられている唯一の制約は、同じファイルを2回実行することは許可されていないということです。
特定のファイルを実行したかどうかを確認するには、ファイルのチェックサムを作成して別のファイルに保存します。したがって、新しいファイルを取得したら、そのファイルのチェックサムを作成し、実行して保存した他のファイルのチェックサムと比較できます。
これまでに実行したすべてのファイルのすべてのチェックサムを含むファイルは、非常に大きくなっています。検索と比較には時間がかかりすぎます。
注:アプリケーションは、データベースとしてフラットファイルを使用します。rdbmsなどの使用を提案しないでください。現時点では不可能です。
重複ファイルをチェックする別の方法があると思いますか?