1

私のスクレイピーでは、カスタム URL からの変数内に html 応答が必要です。

URLがあるとします

url = "http://www.example.com"

今、解析のためにそのページのhtmlを取得したい

pageHtml = scrapy.get(url)

私はこのようなものが欲しい

page = urllib2.urlopen('http://yahoo.com').read()

クローラーで上記の行を使用できない唯一の問題は、セッションが既にスクレイピーによって認証されているため、その関数の html を取得するために他の関数を使用できないことです。

コールバックでの応答は必要ありませんが、変数内で直接処理するだけです

4

1 に答える 1

1

基本的に、その質問のコードを機能させるには、関連するインポートを追加するだけです。linkまた、そのサンプル コードで使用されているが定義されていない変数を追加する必要があります。

import httplib
from scrapy.spider import BaseSpider
from scrapy.http import TextResponse

bs = BaseSpider('some')
# etc
于 2012-12-19T12:06:45.123 に答える