3

トレンドトピックの約100件のツイートを表示するアプリケーションがあります。問題は、それらの多くが本当に類似している(つまり、異なるURLを持つ同じツイート)ということです。そのため、私は本当に類似したツイートを無視したいと思います。

私はPythonでこれを行うための効率的な方法を見つけようとしています。これを解決するためにhttp://code.google.com/p/pylevenshtein/を使用することを考えていますが、多くのツイートを相互に比較する必要があり、もっと簡単な方法があるかもしれません。

4

2 に答える 2

2

difflib.get_close_matchesを試して、各ツイートを残りのツイートと比較してください。

于 2012-06-28T23:42:32.040 に答える
2

あなたは本当に試してみる必要difflibがあります、それはいくつかのクールなものを持っています。これが私のお気に入りの1つです:

>>>from difflib import SequenceMatcher as sm
>>> dif = sm(a='hello', b='maybe hello')
>>> dif.ratio()
0.625
>>> dif = sm(a='hello', b='Hello')
>>> dif.ratio()
0.8
>>> dif = sm(a=[1,2,3,4], b=[2,3,5,6])
>>> dif.ratio()
0.5
于 2012-06-29T00:16:26.720 に答える