python - Python2.7を使用したHTMLの解析

Question

夕方の人々（またはあなたがどこにいるかによっては朝:)）。

以下のような複数のセグメントを含むWebページを解析しようとしています：-

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr
> Billy Smith<br />The Managing Director<br />123 Jones Street,
> London<br />T:02081234567<br /><a
> href="mailto:billysmith@example.com">Email</a></p>

私がやりたいのは、Webページからソースコードをキャプチャし、それを解析して上記の一意の情報を抽出し、これをタブ区切りのドキュメントの行に配置し、最後に新しい行を追加することです-タイトル、名前を分割します事務所の名前、個人の名前、職務、住所、電話番号、電子メールアドレス。

私はBeautifulSoupの使用を検討してきましたが、他にもっと適したツールがあるかどうか疑問に思っています。

score 1 · Accepted Answer

BeautifulSoup が最良かつ最も簡単なオプションであり、ページまたは HTML のチャンクを解析すると思います。スクレイピーやスクレイパーウィキを試すこともできます

BSの使用例

import BeautifulSoup
import urllib2

get = urllib2.urlopen('http://site.com').read()
dom = BeautifulSoup.BeautifulSoup(get)
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p>

for i in data:
    print data

その他の例: http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

score 0 · Accepted Answer

Web スクレイピングフレームワークである Scrapy は、この種のタスクhttp://scrapy.org/に適しています。これは、データを解析して抽出できるだけでなく、自動スクレイピングジョブも実行できるためです。

score 0 · Accepted Answer

BeautifulSoup はきちんとした人気のあるライブラリですが、lxmlもご覧ください。

python - Python2.7を使用したHTMLの解析

3 に答える 3

Related

Reference