2

重複の可能性:
BeautifulSoup が href を取得する

私は美しいスープを使用しています。以下は私のコードです

import urllib2
data = urllib2.urlopen("some_url")
html_data = data.read()
soup = BeautifulSoup(html_data)
href_tags = soup.findAll('a')

結果:

href_tags = 
[<a href="http://www.exampl.com/score_card" target="_blank" style="font-family:arial;color:#192e94;">Click Here</a>, 
<a href="https://example.icims.com/jobs/search?pr=5">what is this</a>,
<a href="https://example.com/search?pr=6">Cool</a>,
<a href="https://example.com/help/host/search?pr=7">Hello</a>]

しかし、実際にはすべてのアンカータグからhrefが必要です.hrefタグを抽出するにはどうすればよいですか.

前もって感謝します.........

4

2 に答える 2

2

マッチをループしてみてください:

import urllib2
data = urllib2.urlopen("some_url")
html_data = data.read()
soup = BeautifulSoup(html_data)

for a in soup.findAll('a',href=True):
    print a['href']
于 2012-07-17T13:42:03.877 に答える
0

頭のてっぺんから-href_tags = [tag['href'] for tag in soup.findAll('a', {'href': True})]

が失敗しない{'href': True}ように、href属性があることを確認します。tag.attr['href']

于 2012-07-17T13:43:27.513 に答える