文字列のリストがあり、レーベンスタイン距離に基づいて類似しすぎる文字列を除外したいと考えています。だからもしlev(list[0], list[10]) < 50
; それからdel list[10]
。リスト内のすべての文字列のペア間の距離をより効率的に計算する方法はありますか?? ありがとう!!
data2= []
for i in data:
for index, j in enumerate(data):
s = levenshtein(i, j)
if s < 50:
del data[index]
data2.append(i)
上記のかなりばかげたコードは、計算に時間がかかりすぎています...