4

テキストファイル間の類似性を定義するために、difflib SequenceMatcher (ratio() メソッド) を使用しています。difflib は比較的高速にテキスト ファイルの小さなセットを比較できます。たとえば、平均 70 kb のファイル 10 個を相互に比較する場合 (46 回の比較)、約 80 秒かかります。

ここでの問題は、3000 個の txt ファイル (平均 75 kb) のコレクションがあることです。SequenceMatcher が比較ジョブを完了するのに必要な時間の生の見積もりは 80 日です!

「real_quick_ratio()」と「quick_ratio()」メソッドを試しましたが、ニーズに合いません。

比較プロセスを高速化する方法はありますか? そうでない場合、そのようなタスクを実行するための他のより高速な方法はありますか? Python でなくても。

4

3 に答える 3