すべてをスクレイピーでクロールしています。多くの人が美しい Soup を構文解析に使用しているのを見てきました。
スパイダーやクローラーを作成するのに役立つ速度、効率、またはより多くのslectrorsなどの点で利点があるかどうか、またはスクレイピーだけで十分であることを知りたかっただけです
すべてをスクレイピーでクロールしています。多くの人が美しい Soup を構文解析に使用しているのを見てきました。
スパイダーやクローラーを作成するのに役立つ速度、効率、またはより多くのslectrorsなどの点で利点があるかどうか、またはスクレイピーだけで十分であることを知りたかっただけです
Scrapy 組み込みのパーサーセレクターメカニズムの代わりに BeautifulSoup を使用した場合のパフォーマンスは、多くのことに依存します。たとえば、異なるパーサーを使用できるようになります。lxml が最も高速です。BeautifulSoup のパフォーマンスを向上させるためにできることは他にもいくつかあります。全体として、同様のパフォーマンスが得られる可能性がありますが、一般に、BeautifulSoup を使用しても速度の利点は得られません。
ただし、BeautifulSoup は、Scrapy が提供しないいくつかの有利な代替抽出 API とセレクターメカニズムを提供します。
特に、CSS セレクターは非常に便利です。
答えは、HtmlSelectorを使用して数ページを解析してから、美しいスープを使用することです。そして、いくつかの統計を見つけます。
第二に、ほとんどの人は、解析にlxmlでさえ美しいスープを使用します。これは、これを使用するためにすでに使用されているためです。
Xpathに慣れていない場合は、 Scrapyの基本的な動機はクロールです。美しいスープ、lxml(lxmlパッケージもxpathをサポートしていますが)は、構文解析用の正規表現のみを使用できます。