私は記事を比較するためのソフトウェアを書いています。2 つの記事の差 (変動) を計算する効率的で正確なアルゴリズムを探しています。バリエーションは、文字ではなく単語に完全に依存する必要があります。試してみlevenshtein()
ましたが、時間の複雑さがO(n*m)あり、記事のような大きなテキストで実行すると非常に高価です。O(n*m*3)similar_text()
の時間複雑度が高いものも試し ました。さらに、ある文字列を別の文字列に変換するために必要な操作の数を計算しますが、これは 2 つの大きな記事の違いを正確に計算する方法ではありません。levenshtein()
similar_text()
他にどのようなオプションがありますか?
編集:
検索エンジン(Google)の観点からおおよその変動を計算しようとしています。