python - beautifulSoupを使用してさまざまな子のコンテンツを取得する方法は?

Question

ページの右側の情報ボックスにあるhttps://en.wikipedia.org/wiki/Alabama_Institute_for_the_Deaf_and_Blindのリンクの位置情報を取得したいと思います。

私は次のことを試しました：

from bs4 import BeautifulSoup
soup = BeautifulSoup(requests.get(site).text)
soup.find(('tr','adr').children

と

soup.find(('tr','adr').children.contents()

と

soup.find(('tr','adr').children.text

無駄に。

score 1 · Accepted Answer

だけを印刷します.text：

>>> print soup.find('tr', 'adr').text

205 South St E
Talladega, Alabama, United States

先頭と末尾の空白を削除したい場合があります。

>>> soup.find('tr', 'adr').text.strip()
u'205 South St E\nTalladega, Alabama, United States'
>>> print soup.find('tr', 'adr').text.strip()
205 South St E
Talladega, Alabama, United States

score 0 · Accepted Answer

    for i in soup.find_all('tr'):
        print i.text

これは、すべての tr を取得するためのより良い方法です。

python - beautifulSoupを使用してさまざまな子のコンテンツを取得する方法は?

2 に答える 2

Related

Reference