0

基本的に、私は自分のサイトで多くの RSS フィードを集約し、cron ジョブ中にそれらをデータベースに保存したいと考えています。私はカササギを使用して rss を配列に解析しています... cron ジョブを実行するときの重複の問題が心配ですが、すべてが簡単に見えるはずです。

重複エントリを避けるための最善の解決策は何ですか....これが私の理論ですが、効率的だとは思いません。

cronジョブ理論

1) カササギで RSS フィードを解析する 2) リンクの md5 ハッシュを作成する 3) データベース テーブルに md5 が存在するかどうかをテストする... 存在しない場合は ... 挿入する .. 存在する場合は無視または更新する

より効率的な方法があるかどうかを教えてください

4

2 に答える 2

1

いくつかのサイトで記事が重複しているため、リンクだけでは不十分な場合があります。私はかつて、同じ記事が複数のソースに掲載される可能性がある、多くの新聞から記事を収集するシステムを作成しました。また、記事が複数のカテゴリで表示される場合など、サイトは複数の URL で同じ記事を公開する場合があります。

記事が重複していないことを本当に確認したい場合は、コンテンツまたはそれに基づいてハッシュされたコードを比較してください。

于 2010-08-15T10:40:40.810 に答える
1

重複の問題を心配しているのに、どうして重複してしまうのでしょうか? いくつかの異なるサイトで見つかった場合は、記事の最初の文の MD5 などを見つけた方がよいと思います。

于 2010-08-15T01:03:32.410 に答える