php - テキストの比較

Question

私は 500 件以上の記事を含むデータベースを持っており、5 分ごとに PHP スクリプトが XML ファイルとニュースをチェックしています。すでに持っている記事を無視する必要があります。また、ニュースの類似性をチェックする必要があります。書き直す人もいるからです。例えば：

「こんにちは、私の名前はジョンです。お元気ですか?」
2番目は「こんにちは！お元気ですか？私の名前はジョンです！」と書きます。

良い例ではありませんが、私はこの問題を抱えています。テキストの比較には、帯状疱疹アルゴリズムを使用します。しかし、どのように行うのが良いでしょうか？xml のすべての記事を毎回データベースでチェックするのは良くないと思います。

score 2 · Accepted Answer

500 以上の記事しかないので、5 分ごとにチェックしても問題ありません。

とにかくこれを改善したい場合は、別のテーブル (md5 または sha1 ハッシュ、テキストソース) を追加し、テキストを取得したソースといくつかのハッシュを保存できます。新しい記事をチェックするときは、代わりにハッシュと比較して、この記事を既に読んだかどうかを確認できます。

1 に答える 1