0

夕方の人々(またはあなたがどこにいるかによっては朝:))。

以下のような複数のセグメントを含むWebページを解析しようとしています:-

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr
> Billy Smith<br />The Managing Director<br />123 Jones Street,
> London<br />T:02081234567<br /><a
> href="mailto:billysmith@example.com">Email</a></p>

私がやりたいのは、Webページからソースコードをキャプチャし、それを解析して上記の一意の情報を抽出し、これをタブ区切りのドキュメントの行に配置し、最後に新しい行を追加することです-タイトル、名前を分割します事務所の名前、個人の名前、職務、住所、電話番号、電子メールアドレス。

私はBeautifulSoupの使用を検討してきましたが、他にもっと適したツールがあるかどうか疑問に思っています。

4

3 に答える 3

1

BeautifulSoup が最良かつ最も簡単なオプションであり、ページまたは HTML のチャンクを解析すると思います。スクレイピーやスクレイパーウィキを試すこともできます

BSの使用例

import BeautifulSoup
import urllib2

get = urllib2.urlopen('http://site.com').read()
dom = BeautifulSoup.BeautifulSoup(get)
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p>

for i in data:
    print data

その他の例: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

于 2013-01-24T21:15:41.313 に答える
0

Web スクレイピング フレームワークである Scrapy は、この種のタスクhttp://scrapy.org/に適しています。これは、データを解析して抽出できるだけでなく、自動スクレイピング ジョブも実行できるためです。

于 2013-01-24T22:27:17.813 に答える
0

BeautifulSoup はきちんとした人気のあるライブラリですが、lxmlもご覧ください。

于 2013-01-24T21:10:16.090 に答える