私は200,000の文字列を持っています。そのセットの中から類似の文字列を見つける必要があります。セット内の同様の文字列の数は非常に少ないと思います。効率的なデータ構造を手伝ってください。
完全に一致する文字列を探している場合は、単純なハッシュを使用できます。しかし、私の場合、「類似性」はカスタム定義されています。2 つの文字列は、それらの文字の 80% が同じであれば同様に扱われ、順序は関係ありません。
「類似性」を見つける関数を〜(200k * 100k)回呼び出したくありません。文字列を前処理する手法、効率的なデータ構造などの提案は大歓迎です。ありがとう。