Scrapy に基づいて Web クローラーを構築し、複数のニュース ポータル Web サイトからニュース画像を取得したいと考えています。このクローラーを次のようにしたい:
永久に実行
更新を取得するために、定期的にいくつかのポータル ページに再アクセスすることを意味します。
スケジュールの優先順位。
URL の種類ごとに異なる優先順位を付けます。
マルチスレッドフェッチ
Scrapy のドキュメントを読みましたが、リストした内容に関連するものは見つかりませんでした (十分に注意していない可能性があります)。その方法を知っている人はいますか?または、それについてのアイデア/例を挙げてください。ありがとう!