0

RSSスパイダーをやっています。最終クロール日を制御するにはどうすればよいですか?

今私が考えていたのはこれです:

  • クロールした最後のpub_dateを制御ファイルに入れます。
  • 次に、クロールが開始されると、最後のpub_dateが新しいpub_datesと照合されます。新しいアイテムがある場合はクロールを開始し、ない場合は何もしません。

他の誰もがこれをどのように解決しますか?

4

2 に答える 2

1

すべてのデータ (最終クロール日と投稿日を含む) をデータベースに保存し、必要なすべての日付をデータベースから取得します。

于 2011-02-18T14:44:28.947 に答える
0

すべてのデータもデータベースに保存し、データからハッシュ値を計算します。これにより、ハッシュをすばやく検索し、その場で重複排除操作を実行できます。

于 2012-09-29T00:04:41.910 に答える