python - 文字列（ツイート）のセットの類似性を計算する

Question

トレンドトピックの約100件のツイートを表示するアプリケーションがあります。問題は、それらの多くが本当に類似している（つまり、異なるURLを持つ同じツイート）ということです。そのため、私は本当に類似したツイートを無視したいと思います。

私はPythonでこれを行うための効率的な方法を見つけようとしています。これを解決するためにhttp://code.google.com/p/pylevenshtein/を使用することを考えていますが、多くのツイートを相互に比較する必要があり、もっと簡単な方法があるかもしれません。

score 2 · Accepted Answer

difflib.get_close_matchesを試して、各ツイートを残りのツイートと比較してください。

score 2 · Accepted Answer

あなたは本当に試してみる必要difflibがあります、それはいくつかのクールなものを持っています。これが私のお気に入りの1つです：

>>>from difflib import SequenceMatcher as sm
>>> dif = sm(a='hello', b='maybe hello')
>>> dif.ratio()
0.625
>>> dif = sm(a='hello', b='Hello')
>>> dif.ratio()
0.8
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6])
>>> dif.ratio()
0.5

python - 文字列（ツイート）のセットの類似性を計算する

2 に答える 2

Related

Reference