たとえば、私はサイトを持っていました。"www.example.com"
実際には、ローカル システムに保存して、このサイトの html をスクレイピングしたいと考えています。テストのために、そのページをデスクトップに保存しましたexample.html
今、私は以下のようにこれのためのスパイダーコードを書いていました
class ExampleSpider(BaseSpider):
name = "example"
start_urls = ["example.html"]
def parse(self, response):
print response
hxs = HtmlXPathSelector(response)
しかし、上記のコードを実行すると、以下のようなエラーが発生します
ValueError: Missing scheme in request url: example.html
最後に、私の意図は、ローカル システムに保存されている html コードexample.html
で構成されるファイルをスクレイピングすることです。www.example.com
そのexample.htmlファイルをstart_urlsに割り当てる方法について誰かが私に提案できますか
前もって感謝します