Scrapy クローラーを使用して、10 万ページを超える Web サイトをクロールしています。この場合、速度が大きな懸念事項です。hxs.select('//*').re('something')
今日、それが よりもずっと遅いことに気付きましたhxs.select('//script/text()').re('something')
。その理由を説明できる専門家はいますか?
私が理解しているように、クローラーは、使用する xpath セレクターに関係なく、ページ全体をダウンロードする必要があります。したがって、xpath は速度にまったく影響を与えません。
ヒントをありがとう。