スクレイピーが私に適しているかどうかを評価しています。私が望むのは、毎日いくつかのスポーツ ニュース サイトをスクレイピングして最新の見出しを探し、タイトル、日付、記事の本文を抽出することだけです。記事の本文内のリンクをたどることは気にしません。本文が欲しいだけです。
私が理解しているように、クロールは 1 回限りの仕事であり、見つけたリンクに基づいてサイト全体をクロールします。私はサイトを叩きたくありませんし、サイト全体をクロールしたくもありません。スポーツセクションと見出しのみ。
要約すると、私はスクレイピーに
- 1日1回、指定ドメインの昨日とは違うニュース記事を探す
- 新しい記事の日付、時刻、本文を抽出する
- 結果をデータベースに保存する
これを行うことは可能ですか?もしそうなら、どうすればこれを達成できますか? 私はチュートリアルを読みましたが、説明されているプロセスは、サイト全体を 1 回限りのジョブとして検索するようです。