1

cmsで重複したテキストを見つけるための、実装が簡単なアルゴリズムを探しています。実際には、テキストを空白を削除して余分な列に保存し、すべての文字を小文字にして、スペースの量と大文字と小文字が異なる場合に重複を見つけることができますが、それだけでは十分ではありません。

2 つのテキストが数文字異なっていて、それらを重複として認識させたい場合、どのように対処すればよいですか?

4

1 に答える 1

0

この問題の簡単な解決策は、Soundex チェックを使用することです。各単語を対応する Soundex に変換し、小さな単語を削除して、レコードが同じ場合は一致します。粗雑ですが、効果的です。

于 2013-02-11T19:40:39.237 に答える