python - 訪問したURLを追加するためのscrapyのルールの書き方

Question

Scrapy がシャットダウンすると、すべての URL が忘れられます。開始時に、クロールされた一連の URL をスクレイピーに提供したいと考えています。どの URL がアクセスされたかを知るために、crawlspider にルールを追加するにはどうすればよいでしょうか?

現在の機能:

SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)

parse を使用して、クロールする URL をスパイダーに伝えるだけです。どのURLがアクセスしてはならないかをscrapyに伝えるにはどうすればよいですか?

score 3 · Accepted Answer

スクレイピーが停止すると、クロールされた URL フィンガープリントが request.seen ファイルに保存されます。これは、URL を 2 回クロールするために使用される重複除去クラスによって行われますが、同じジョブディレクトリでスクレイパーを再起動すると、既に表示されている URL はクロールされません。このプロセスを制御したい場合は、デフォルトの重複排除クラスを独自のものに置き換えることができます。別の解決策は、独自のスパイダーミドルウェアを追加することです

python - 訪問したURLを追加するためのscrapyのルールの書き方

2 に答える 2

Related

Reference