これは、Web サイトのソース コード レイアウトです。
<div class="address">
<a href="https://website.ca/classifieds/59-barclay-street/">
59 Some Street<br />City, Zone 1
</a>
</div>
Google Geocoding の番地、ルート、都市を取得したいと考えています。私がこれをしたら
>>>article.find('div', {'class': 'address'}).text
'59 Some StreetCity, Zone 1'
それは を奪い<br />
、都市からルートを分割する方法はありません。もしそうならstr().replace('<br />',', ')
、どうにかして以前の型に戻す必要があるので.text
、 の間の実際のテキストを取得することができますが、<a href>
非効率的です。.text
実際のテキストを取得するために使用する機能を使用したいと思いますが、それを削除する機能は使用しませ<br>
ん。env で呼び出されたファイルが見つからなかったBeautifulSoup.py
ので、GitHub で BeautifulSoup のソース コードdef text
を見ています。
アップデート:
articles = page_soup.find('h2', text='Ads').find_next_siblings('article')
for article in articles:
link = article.find('a')
br = link.find('br')
ad_address = br.previous_sibling.strip() + ', ' + br.next_sibling.strip().partition(', Zone ')[0]
#ad_address = link.br.replace_with(', ').get_text().strip().partition(', Zone ')