0

いくつかの Web サイトをスクレイピングしたいのですが、多くの Web サイトが提案されてScrapyいます。これは Python ベースであり、私は PHP に精通しているので、代替手段を探しました。

クローラーを手に入れましたPHPCrawl。それが単なるクローラーなのか、スクレイピング機能も提供するのかはわかりません。スクレイピングに使用できる場合、XPath または正規表現をサポートしますか。

ScrapyPython にあるものとどのように比較できますか。

ウェブサイトのスクレイピングに最適なものを教えてください。

ありがとう

4

2 に答える 2

0

PHPCrawl は純粋なクローラーであり、見つかったページとそのソースコードを「そのまま」 (いくつかのコンテキスト情報と共に) ユーザーに配信します。そのため、高速で、マルチプロセスを使用できず、構成するためのオプションがたくさんあります。

これまでScrapyを使用していなかったので、Scrapyについてはあまり言えません.

于 2012-11-23T08:18:00.910 に答える
0

はい、もちろん。しかし、私が言ったように、PHPCrawl はページ ソースを提供し、そこから抽出したいデータを抽出する必要があります。

于 2012-11-23T12:52:16.367 に答える