python - クロール時にCrawlSpiderがソースリンクを取得

Question

Scrapy を使用して、ルールが従うCrawlSpiderページの URL を取得する正規の方法はありますか。たとえば、コールバックメソッドでページ Bを解析するときにページ Aからページ Bへのリンクがあった場合、ページ Aの URL を知る方法はありますか? クラスを拡張するよりも、組み込み機能に興味があります。CrawlSPider

score 0 · Accepted Answer

コールバックでは、応答のリクエストヘッダーで「Referer」ヘッダーを使用できます。

    def mycallback(self, response):
        print "Referer:", response.request.headers.get("Referer")
        ...

すべてのスパイダーで動作するはずです。

python - クロール時にCrawlSpiderがソースリンクを取得

1 に答える 1

Related

Reference