3

Scrapy がシャットダウンすると、すべての URL が忘れられます。開始時に、クロールされた一連の URL をスクレイピーに提供したいと考えています。どの URL がアクセスされたかを知るために、crawlspider にルールを追加するにはどうすればよいでしょうか?

現在の機能:

SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)

parse を使用して、クロールする URL をスパイダーに伝えるだけです。どのURLがアクセスしてはならないかをscrapyに伝えるにはどうすればよいですか?

4

2 に答える 2

3

スクレイピーが停止すると、クロールされた URL フィンガープリントが request.seen ファイルに保存されます。これは、URL を 2 回クロールするために使用される重複除去クラスによって行われますが、同じジョブ ディレクトリでスクレイパーを再起動すると、既に表示されている URL はクロールされません。このプロセスを制御したい場合は、デフォルトの重複排除クラスを独自のものに置き換えることができます。別の解決策は、独自のスパイダーミドルウェアを追加することです

于 2012-11-28T10:29:58.037 に答える