新しい更新のために毎日 1000 以上の大規模な Web サイトをスクレイピングするツールのアーキテクチャを定義する助けが必要です。
このプロジェクトに Scrapy を使用する予定です。
- Scrapy が Web サイトごとにプロジェクトを必要とする場合、1000 以上の Web サイトをスクレイピングし、そのデータを Scrapy で 1 つのプロジェクトに保存するにはどうすればよいですか? プロジェクトジェネレーターを追加してみましたが、これでよろしいでしょうか?
- ウェブサイトが新しいコンテンツで更新されたかどうかを確認して、再度スクレイピングできるようにするにはどうすればよいですか?
ありがとう!