Python を学習し、BeautifulSoup を使用していくつかの Web ページをクロールしています。私が探しているのは、最初の「td」の子「a」を見つけ、href を抽出してリストに追加することです。href をセル テキストに追加する方法と場所を教えてください。
import urllib2
from BeautifulSoup import BeautifulSoup
def listify(table):
"""Convert an html table to a nested list"""
result = []
rows = table.findAll('tr')
for row in rows:
result.append([])
cols = row.findAll('td')
for col in cols:
strings = [_string.encode('utf8') for _string in col.findAll(text=True)]
text = ''.join(strings)
result[-1].append(text)
return result