7

私はWebスクレイピングに3つの言語(Ruby、PHP、Python)を使用しましたが、正直なところ、どれもこのタスクに最適ではないようです。

Rubyには優れた機械化およびXML解析ライブラリがありますが、スプレッドシートのサポートは非​​常に貧弱です。

PHPには優れたスプレッドシートとHTML解析ライブラリがありますが、WWW:Mechanizeに相当するものはありません。

Pythonには非常に貧弱なMechanizeライブラリがあります。私はそれに関して多くの問題を抱えていましたが、それでもそれらを解決することができません。そのスプレッドシートライブラリも、XLSXファイルを作成できないため、多かれ少なかれまともです。

ウェブスクレイピングに最適なものはありますか。

PS:私はWindowsプラットフォームに取り組んでいます。

4

4 に答える 4

2

Python + Scrappy を確認してください。これは非常に優れています。

http://scrapy.org/

于 2010-08-12T13:53:54.040 に答える
1

XMLスプレッドシート形式を使用しないのはなぜですか?作成は非常に簡単で、どのタイプのクラスベースシステムでも簡単です。

また、Pythonの場合、解析にBeautifulSoupを試しましたか?Urllib+BeautifulSoupは非常に強力なコンボになります。

于 2010-08-12T14:43:42.797 に答える
1

短い答えはノーです。

問題は、HTML がフォーマットの大規模なファミリであり、最近のバリアントのみが一貫していることです (そして XML ベース)。PHP を使用する場合は、DOM パーサーを使用することをお勧めします。DOM パーサーは、整形式の XML とは見なされない多くの html を処理できるからです。

あなたの投稿の行間を読んでください-あなたは次のようです:

1) 複雑なインタラクション管理を必要とする Web からのコンテンツのキャプチャ

2) データを一貫した機械可読形式に解析する

3) データをスプレッドシートに書き込む

これは確かに 3 つの個別の問題です。1 つの言語が 3 つの要件すべてを満たしていない場合、その仕事に最適なツールを使用して、データに適した暫定的な形式/媒体について心配するだけではどうですか?

C.

于 2010-08-12T16:41:27.963 に答える
0

Web スクレイピング用のPython + Beautiful Soupと Windows を使用しているため、win32com を使用して Excel の自動化を行い、xlsx ファイルを生成できます。

于 2010-08-12T14:56:34.793 に答える