たとえば、文字列の長いリストがあり、各文字列は約 30 ~ 50 文字であり、そのリスト内の他の文字列に似ている文字列を削除したい (重複のファミリから 1 つだけを残す)。
さまざまな文字列類似度アルゴリズムを調べました。たとえば、レーベンスタイン距離や、この記事で紹介した方法です。それらは機能しますが、非常に遅いです-私が思いついた最良のアルゴリズムは、O(n^2) の複雑さを示し、3000 文字列のリストを処理するのに約 1.5 秒かかります。
これらのリストを重複排除する簡単な方法はありますか?