混乱を避けるために、ハッシュアルゴリズムに関する私の研究に基づいて質問を再構成しています
問題文 可変長データ レコードを含むテキスト ファイルが複数あります。入力に重複するレコードがあるかどうかを確認する必要があります。各テキスト ファイルには、数百万のデータ レコードが含まれている可能性があります。
すべてのデータを一度にメモリにロードすることはできないため、レコードの処理時にキー フィールドのハッシュを作成する予定です。レコードの処理とは、レコードの検証、フィルタリング、および変換を意味します。すべてのテキスト ファイルのすべてのレコードを処理した後、それらをマージして、入力全体 (テキスト ファイルまたはデータベース テーブル) の 1 つのビューを作成します。
すべてのレコードに対してハッシュ値が生成されると、重複の検出がはるかに高速になります。ハッシュ値の衝突がある場合、それらのレコードのみが等しいかどうかをチェックできます (ハッシュ アルゴリズムが決定論的であると仮定します)。
質問 - そのような入力、つまり可変長データに対してどのようなハッシュ アルゴリズムを考慮する必要がありますか?