1,000 万を超える文字列をファイルに読み書きする必要があります。また、ファイル内での重複は望ましくありません。文字列は読み取られるとすぐにファイルにフラッシュされるため、メモリに保持していません。
ハッシュコードの衝突により、重複として文字列を見逃す可能性があるため、ハッシュコードを使用できません。グーグルで見つけた他の2つのアプローチ:
1. MD5 のようなメッセージ ダイジェスト アルゴリズムを使用しますが、計算と保存にコストがかかりすぎる可能性があります。
2. チェックサム アルゴリズムを使用します。[これが文字列の一意のキーを生成するかどうかはわかりません-誰か確認してください]
利用可能な他のアプローチはありますか?ありがとう。