フォーラムをスクレイプするプログラムを作成する必要があります。
Scrapyフレームワークを使用してPythonでプログラムを作成する必要がありますか、それともPhp cURLを使用する必要がありますか?また、Scrapyに相当するPHPはありますか?
ありがとう
フォーラムをスクレイプするプログラムを作成する必要があります。
Scrapyフレームワークを使用してPythonでプログラムを作成する必要がありますか、それともPhp cURLを使用する必要がありますか?また、Scrapyに相当するPHPはありますか?
ありがとう
優れたlibxml2バインディング、特にlxml.htmlやpyQueryなどのためにPythonを選択します。Scrapyには独自のlibxml2バインディングがあり、それらをテストするためにそれらを調べていませんが、Scrapyのドキュメントをざっと読んでも、あまり感銘を受けませんでした(これらのパーサーと手動コーディングを使用するだけで多くのスクレイピングを行いました)。これらのいずれかを使用すると、XPathを介してクエリを実行する真に優れたHTMLパーサーを取得でき、lxml.htmlおよびpyquery(これもlxml上に構築されています)を使用すると、CSSセレクターを取得できます。
フォーラムをスクレイピングする小さな仕事をしている場合は、スクレイピングフレームワークをスキップして、手作業で行うだけです。簡単で、並列化などは実際には必要ありません。
私が書いている新しいアプリケーションにはPHPを使用しません。私はさまざまな理由でその言語が好きではありません。
また、Web上で動的ページを配信するサーバーサイドスクリプト言語としての強みもあります。汎用プログラミング言語としてではありません。それはもう一つのマイナス点です。私はPythonに固執します。
どのフレームワークを使用するかについては、周りにたくさんあります。Harvestman、Scrapyなど。80legsのクラウドベースのクローラーも使用できる可能性があります。
更新:おそらく私がPHPが好きではないと言ったので、人々はこの答えに反対票を投じてきました。理由のリストは次のとおりです。完全に正確ではありませんが、それでもまともな要約http://wiki.python.org/moin/PythonVsPhp