HtmlXPathSelectorを介してページから何かを抽出するためにURLをフェッチするものをスパイダー内に含めるにはどうすればよいですか?しかし、URLはコード内の文字列として提供したいものであり、たどるリンクではありません。
私はこのようなことを試みました:
req = urllib2.Request('http://www.example.com/' + some_string + '/')
req.add_header('User-Agent', 'Mozilla/5.0')
response = urllib2.urlopen(req)
hxs = HtmlXPathSelector(response)
ただし、現時点では、次の例外がスローされます。
[Failure instance: Traceback: <type 'exceptions.AttributeError'>: addinfourl instance has no attribute 'encoding'