python - Python の difflib SequenceMatcher の高速化

翻译自：https://stackoverflow.com/questions/25680947 2014-09-05T07:47:36.063

4868 次

テキストファイル間の類似性を定義するために、difflib SequenceMatcher (ratio() メソッド) を使用しています。difflib は比較的高速にテキストファイルの小さなセットを比較できます。たとえば、平均 70 kb のファイル 10 個を相互に比較する場合 (46 回の比較)、約 80 秒かかります。

ここでの問題は、3000 個の txt ファイル (平均 75 kb) のコレクションがあることです。SequenceMatcher が比較ジョブを完了するのに必要な時間の生の見積もりは 80 日です!

「real_quick_ratio()」と「quick_ratio()」メソッドを試しましたが、ニーズに合いません。

比較プロセスを高速化する方法はありますか? そうでない場合、そのようなタスクを実行するための他のより高速な方法はありますか? Python でなくても。

python - Python の difflib SequenceMatcher の高速化

3 に答える 3

Related

Reference