scrapy - ScrapyはクロールされたURLをどのようにフィルタリングしますか？

Question

ScrapyがこれらのクロールされたURLをどのようにフィルタリングするか知りたいですか？のようなものでクロールされたすべてのURLを保存しcrawled_urls_list、新しいURLを取得すると、リストを検索してそのURLが存在するかどうかを確認しますか？

CrawlSpiderのこのフィルタリング部分のコードはどこにありますか（/path/to/scrapy/contrib/spiders/crawl.py）？

どうもありがとう！

score 5 · Accepted Answer

デフォルトでは、scrapy は見たリクエストのフィンガープリントを保持します。このリストは Python セットのメモリに保持され、JOBDIR 変数で定義されたディレクトリにファイル呼び出し requests.seen が追加されます。Scrapy を再起動すると、ファイルが python セットに再ロードされます。これを制御するクラスは、scrapy.dupefilter にあります。別の動作が必要な場合は、このクラスをオーバーロードできます。

scrapy - ScrapyはクロールされたURLをどのようにフィルタリングしますか？

1 に答える 1

Related

Reference