python - Web クロール出力から特定のテキストを解析する

Question

HTML ページのこの部分を解析して CSV ファイルに出力し、次の出力を待つ必要があります。正規表現に関しては途方に暮れています。

<h1>Member Information</h1>


<h2>Company Name</h2>
<p>Address<br />
More Address<br />
City<br />
State<br />
Postal code<br />
</p>
<p><strong>Contact:</strong> Firstname Lastname, PH.D., P.ENG. - <a href="mailto:email@email.com">email@email.com</a><br /></p>
<a href="http://www.domain.com">www.domain.com</a><br />
<p><strong>Phone:</strong> (555)555-5555<br /></p>

</div><!-- end #content -->

住所情報はなくても構いませんが、会社名、ID (URL から取得)、姓名(および可能であれば役職)、電子メール、URL、および電話番号は非常に価値があります。ありがとう！

score 3 · Accepted Answer

HTML (または XML、Json、CSV...) の解析に正規表現を使用しないでください。

代わりに、そのようなタスク用に既に作成された優れたライブラリであるBeautifulSoupを使用してください。

例：

from bs4 import BeautifulSoup as BS
soup = BS(htmltext)
soup.h2.text
>>> 'Company Name'

python - Web クロール出力から特定のテキストを解析する

1 に答える 1

Related

Reference