python - Scrapy で Beautiful Soup を使用すると、パフォーマンスが向上しますか

Question

すべてをスクレイピーでクロールしています。多くの人が美しい Soup を構文解析に使用しているのを見てきました。

スパイダーやクローラーを作成するのに役立つ速度、効率、またはより多くのslectrorsなどの点で利点があるかどうか、またはスクレイピーだけで十分であることを知りたかっただけです

score 2 · Accepted Answer

Scrapy 組み込みのパーサーセレクターメカニズムの代わりに BeautifulSoup を使用した場合のパフォーマンスは、多くのことに依存します。たとえば、異なるパーサーを使用できるようになります。lxml が最も高速です。BeautifulSoup のパフォーマンスを向上させるためにできることは他にもいくつかあります。全体として、同様のパフォーマンスが得られる可能性がありますが、一般に、BeautifulSoup を使用しても速度の利点は得られません。

ただし、BeautifulSoup は、Scrapy が提供しないいくつかの有利な代替抽出 API とセレクターメカニズムを提供します。

特に、CSS セレクターは非常に便利です。

score 0 · Accepted Answer

答えは、HtmlSelectorを使用して数ページを解析してから、美しいスープを使用することです。そして、いくつかの統計を見つけます。

第二に、ほとんどの人は、解析にlxmlでさえ美しいスープを使用します。これは、これを使用するためにすでに使用されているためです。

Xpathに慣れていない場合は、 Scrapyの基本的な動機はクロールです。美しいスープ、lxml（lxmlパッケージもxpathをサポートしていますが）は、構文解析用の正規表現のみを使用できます。

python - Scrapy で Beautiful Soup を使用すると、パフォーマンスが向上しますか

2 に答える 2

Related

Reference