0

すべてをスクレイピーでクロールしています。多くの人が美しい Soup を構文解析に使用しているのを見てきました。

スパイダーやクローラーを作成するのに役立つ速度、効率、またはより多くのslectrorsなどの点で利点があるかどうか、またはスクレイピーだけで十分であることを知りたかっただけです

4

2 に答える 2

2

Scrapy 組み込みのパーサーセレクターメカニズムの代わりに BeautifulSoup を使用した場合のパフォーマンスは、多くのことに依存します。たとえば、異なるパーサーを使用できるようになります。lxml が最も高速です。BeautifulSoup のパフォーマンスを向上させるためにできることは他にもいくつかあります。全体として、同様のパフォーマンスが得られる可能性がありますが、一般に、BeautifulSoup を使用しても速度の利点は得られません。

ただし、BeautifulSoup は、Scrapy が提供しないいくつかの有利な代替抽出 API とセレクターメカニズムを提供します。

特に、CSS セレクターは非常に便利です。

于 2012-11-26T09:58:30.350 に答える
0

答えは、HtmlSelectorを使用して数ページを解析してから、美しいスープを使用することです。そして、いくつかの統計を見つけます。

第二に、ほとんどの人は、解析にlxmlでさえ美しいスープを使用します。これは、これを使用するためにすでに使用されているためです。

Xpathに慣れていない場合は、 Scrapyの基本的な動機はクロールです。美しいスープlxml(lxmlパッケージもxpathをサポートしていますが)は、構文解析用の正規表現のみを使用できます。

于 2012-11-26T07:28:06.560 に答える