Web ページから連絡先の詳細を抽出しようとしていますが、Beautiful Soup を使用していくつかの情報を抽出することに成功しました。
しかし、適切に構築されていないため(html)、一部のデータを抽出できません。なので正規表現を使っています。しかし、ここ数時間、正規表現を学ぼうとしていて、ちょっとショックを受けました。
InstanceBeginEditable name="additional_content"
<h1>Contact details</h1>
<h2>Diploma coordinator</h2>
Mr. Matthew Schultz<br />
<br />
610 Maryhill Drive<br />
Green Bay<br />
WI<br />
United States<br />
54303<br />
Contact by email</a><br />
Phone (1) 920 429 6158
<hr /><br />
抽出する必要があり、
マシュー・シュルツ氏
アメリカ合衆国 54303 グリーンベイ 610 Maryhill Drive
そして電話番号。グーグル検索で見つけたものを試してみました。しかし、どれも機能しません(私の知識が少ないためですが、ここで私の最後の努力です。
con = ""
for content in contactContent.contents:
con += str(content)
print con
address = re.search("Mr.\b[a-zA-Z]", con)
print str(address)
時々私はNoneを得ます。
みんな助けてください!
PS。コンテンツはネットで自由に利用でき、著作権は侵害されていません。