メモリに収まらない非常に大きなデータセットがあり、データセットには何百万ものレコードがあり、重複行を削除したいとします (実際には重複から 1 行を保持します)。
空間と時間の複雑さの点で最も効率的なアプローチは何ですか?
私が思ったこと:
1.ブルームフィルターを使用して、それがどのように実装されているかはわかりませんが、副作用に偽陽性があると思います。その場合、それが本当に重複しているかどうかをどのように見つけることができますか?
2.ハッシュ値を使用する場合、この場合、重複する値が少ない場合、一意のハッシュ値の数が多くなり、メモリに問題が発生する可能性があります。