html-parsing - Scrapy - 新しいページを毎日スクレイピングする方法

Question

スクレイピーが私に適しているかどうかを評価しています。私が望むのは、毎日いくつかのスポーツニュースサイトをスクレイピングして最新の見出しを探し、タイトル、日付、記事の本文を抽出することだけです。記事の本文内のリンクをたどることは気にしません。本文が欲しいだけです。

私が理解しているように、クロールは 1 回限りの仕事であり、見つけたリンクに基づいてサイト全体をクロールします。私はサイトを叩きたくありませんし、サイト全体をクロールしたくもありません。スポーツセクションと見出しのみ。

要約すると、私はスクレイピーに

1日1回、指定ドメインの昨日とは違うニュース記事を探す
新しい記事の日付、時刻、本文を抽出する
結果をデータベースに保存する

これを行うことは可能ですか?もしそうなら、どうすればこれを達成できますか? 私はチュートリアルを読みましたが、説明されているプロセスは、サイト全体を 1 回限りのジョブとして検索するようです。

score 9 · Accepted Answer

deltafetchミドルウェアを見てみましょう。これは、 scrapinghubによって公開されたアドオンのスクレイピーライブラリの一部です。アイテムを生成するページの URL をディスクに保存し、再度アクセスすることはありません。これにより、scrapy が他のページにアクセスできるようになります (これは通常、アイテムページを見つけるために必要です)。これは、特定のニーズに合わせてカスタマイズできる非常に単純な例です。

このミドルウェアを有効にして、毎日 (たとえば、cron を使用して) クロールを実行する必要があります。

html-parsing - Scrapy - 新しいページを毎日スクレイピングする方法

1 に答える 1

Related

Reference