python - リスト内のすべての要素の単一文に対する類似性を計算する

翻译自：https://stackoverflow.com/questions/13696337 2012-12-04T04:57:32.847

268 次

2

長いリスト内のすべての文の類似性を 1 つの文に定量化する必要があります。おそらく、Levenshtein または difflib を使用します。
次に、特定のしきい値を超える、たとえば difflib の 90% を超えたリストの文を削除する必要があります。

助けてくれませんか？ありがとう！

1 に答える 1

4

>>> mylist = ['ham and eggs', 'spam and legs', "it's time to die, mr bond!"]
>>> import difflib
>>> close_matches = difflib.get_close_matches('spam and eggs', mylist)
>>> close_matches
['spam and legs', 'ham and eggs']
>>> set(mylist) - set(close_matches)
set(["it's time to die, mr bond!"])

于 2012-12-04T05:04:41.450 に答える