3

スクレイピーが私に適しているかどうかを評価しています。私が望むのは、毎日いくつかのスポーツ ニュース サイトをスクレイピングして最新の見出しを探し、タイトル、日付、記事の本文を抽出することだけです。記事の本文内のリンクをたどることは気にしません。本文が欲しいだけです。

私が理解しているように、クロールは 1 回限りの仕事であり、見つけたリンクに基づいてサイト全体をクロールします。私はサイトを叩きたくありませんし、サイト全体をクロールしたくもありません。スポーツセクションと見出しのみ。

要約すると、私はスクレイピーに

  1. 1日1回、指定ドメインの昨日とは違うニュース記事を探す
  2. 新しい記事の日付、時刻、本文を抽出する
  3. 結果をデータベースに保存する

これを行うことは可能ですか?もしそうなら、どうすればこれを達成できますか? 私はチュートリアルを読みましたが、説明されているプロセスは、サイト全体を 1 回限りのジョブとして検索するようです。

4

1 に答える 1

9

deltafetchミドルウェアを見てみましょう。これは、 scrapinghubによって公開されたアドオンのスクレイピー ライブラリの一部です。アイテムを生成するページの URL をディスクに保存し、再度アクセスすることはありません。これにより、scrapy が他のページにアクセスできるようになります (これは通常、アイテム ページを見つけるために必要です)。これは、特定のニーズに合わせてカスタマイズできる非常に単純な例です。

このミドルウェアを有効にして、毎日 (たとえば、cron を使用して) クロールを実行する必要があります。

于 2012-11-08T09:47:12.247 に答える