php - ウェブスクレイピングにぴったりの言語はありますか？

Question

私はWebスクレイピングに3つの言語（Ruby、PHP、Python）を使用しましたが、正直なところ、どれもこのタスクに最適ではないようです。

Rubyには優れた機械化およびXML解析ライブラリがありますが、スプレッドシートのサポートは非常に貧弱です。

PHPには優れたスプレッドシートとHTML解析ライブラリがありますが、WWW：Mechanizeに相当するものはありません。

Pythonには非常に貧弱なMechanizeライブラリがあります。私はそれに関して多くの問題を抱えていましたが、それでもそれらを解決することができません。そのスプレッドシートライブラリも、XLSXファイルを作成できないため、多かれ少なかれまともです。

ウェブスクレイピングに最適なものはありますか。

PS：私はWindowsプラットフォームに取り組んでいます。

score 2 · Accepted Answer

Python + Scrappy を確認してください。これは非常に優れています。

score 1 · Accepted Answer

XMLスプレッドシート形式を使用しないのはなぜですか？作成は非常に簡単で、どのタイプのクラスベースシステムでも簡単です。

また、Pythonの場合、解析にBeautifulSoupを試しましたか？Urllib+BeautifulSoupは非常に強力なコンボになります。

score 1 · Accepted Answer

短い答えはノーです。

問題は、HTML がフォーマットの大規模なファミリであり、最近のバリアントのみが一貫していることです (そして XML ベース)。PHP を使用する場合は、DOM パーサーを使用することをお勧めします。DOM パーサーは、整形式の XML とは見なされない多くの html を処理できるからです。

あなたの投稿の行間を読んでください-あなたは次のようです：

1) 複雑なインタラクション管理を必要とする Web からのコンテンツのキャプチャ

2) データを一貫した機械可読形式に解析する

3) データをスプレッドシートに書き込む

これは確かに 3 つの個別の問題です。1 つの言語が 3 つの要件すべてを満たしていない場合、その仕事に最適なツールを使用して、データに適した暫定的な形式/媒体について心配するだけではどうですか?

C.

score 0 · Accepted Answer

Web スクレイピング用のPython + Beautiful Soupと Windows を使用しているため、win32com を使用して Excel の自動化を行い、xlsx ファイルを生成できます。

4 に答える 4