私は 500 件以上の記事を含むデータベースを持っており、5 分ごとに PHP スクリプトが XML ファイルとニュースをチェックしています。すでに持っている記事を無視する必要があります。また、ニュースの類似性をチェックする必要があります。書き直す人もいるからです。例えば:
「こんにちは、私の名前はジョンです。お元気ですか?」
2番目は「こんにちは!お元気ですか?私の名前はジョンです!」と書きます。
良い例ではありませんが、私はこの問題を抱えています。テキストの比較には、帯状疱疹アルゴリズムを使用します。しかし、どのように行うのが良いでしょうか?xml のすべての記事を毎回データベースでチェックするのは良くないと思います。