2

ページのソースからbeautifulsoupを使用してhref URIを抽出できましたが、次の例の複数のインスタンスからUID値を抽出したいと考えています:

例えば

<a href="test.html?uid=5444974">
<a href="test.html?uid=5444972">
<a href="test.html?uid=54444972">

助けていただければ幸いです。

4

2 に答える 2

1
>>> html
'<a href="test.html?uid=5444974">\n<a href="test.html?uid=5444972">\n<a href="test.html?uid=54444972">'
>>> soup = BeautifulSoup(html)
>>> ass = soup.find_all('a')
>>> r = re.compile('uid=(\d+)')
>>> uids = []
>>> for a in ass:
...     uids.append(r.search(a['href']).group(1))
... 
>>> uids
['5444974', '5444972', '54444972']
>>> 
于 2013-07-16T15:58:20.907 に答える
1

とを使用urlparseparse_qsます。

html = """<a href="test.html?uid=5444974">
<a href="test.html?uid=5444972">
<a href="test.html?uid=54444972">
"""

from bs4 import BeautifulSoup as BS
from urlparse import urlparse, parse_qs
soup = BS(html)
for a in soup('a', href=True):
    print parse_qs(urlparse(a['href']).query)['uid'][0]

出力:

5444974
5444972
54444972
于 2013-07-16T15:59:44.707 に答える