私は Web スクレイピングについていくつかの調査を行っており、主に Python を使用して行われているように見えます.PHP よりも Python ベースのソリューションを使用する利点はありますか?パフォーマンスの問題などはありますか?
質問する
6159 次
3 に答える
3
私の意見では、PHP と比較して優れた文字列処理機能を備えているため、Python を使用します。また、Python には Web ページのスクレイピングを至福にするクールなライブラリがたくさんあります。
チェックアウトする必要があるいくつかのライブラリは次のとおりです。
私は個人的に BeautifulSoup を使用しており、そのシンプルで非常に強力です。
ドキュメントからこのコードをチェックアウトしてください:
import urllib2
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.icc-ccs.org/prc/piracyreport.php")
soup = BeautifulSoup(page)
for incident in soup('td', width="90%"):
where, linebreak, what = incident.contents[:3]
print where.strip()
print what.strip()
print
于 2013-09-30T06:45:57.700 に答える
0
私の意見では、本当のテストは、Wikipedia コレクション全体のスクレイピングを開始したときに、各メソッドがどれほどスケーラブルであるか、メモリ管理をどのように処理するかを確認することです。ここで間違っている可能性がありますが、これまで読んだことから、Python はそのような重い処理タスクに最適なツールです。たとえばSCRAPY
、独自のスクレイピング機能があり、このジョブ専用に特別に設計されています。
いずれにせよ、私は Python のみを使用すると思います ;)
于 2013-09-29T16:21:31.160 に答える