3

フォーラムをスクレイプするプログラムを作成する必要があります。

Scrapyフレームワークを使用してPythonでプログラムを作成する必要がありますか、それともPhp cURLを使用する必要がありますか?また、Scrapyに相当するPHPはありますか?

ありがとう

4

2 に答える 2

4

優れたlibxml2バインディング、特にlxml.htmlpyQueryなどのためにPythonを選択します。Scrapyには独自のlibxml2バインディングがあり、それらをテストするためにそれらを調べていませんが、Scrapyのドキュメントをざっと読んでも、あまり感銘を受けませんでした(これらのパーサーと手動コーディングを使用するだけで多くのスクレイピングを行いました)。これらのいずれかを使用すると、XPathを介してクエリを実行する真に優れたHTMLパーサーを取得でき、lxml.htmlおよびpyquery(これもlxml上に構築されています)を使用すると、CSSセレクターを取得できます。

フォーラムをスクレイピングする小さな仕事をしている場合は、スクレイピングフレームワークをスキップして、手作業で行うだけです。簡単で、並列化などは実際には必要ありません。

于 2010-06-05T18:01:21.430 に答える
3

私が書いている新しいアプリケーションにはPHPを使用しません。私はさまざまな理由でその言語が好きではありません。

また、Web上で動的ページを配信するサーバーサイドスクリプト言語としての強みもあります。汎用プログラミング言語としてではありません。それはもう一つのマイナス点です。私はPythonに固執します。

どのフレームワークを使用するかについては、周りにたくさんあります。Harvestman、Scrapyなど。80legsのクラウ​​ドベースのクローラーも使用できる可能性があります。

更新:おそらく私がPHPが好きではないと言ったので、人々はこの答えに反対票を投じてきました。理由のリストは次のとおりです。完全に正確ではありませんが、それでもまともな要約http://wiki.python.org/moin/PythonVsPhp

于 2010-06-05T13:37:45.647 に答える