urllist = ['http://example.com',
'http://example1.com']
i = 0
while i < len(urllist):
source = urllib.urlopen(urllist[i]).read()
regex = '(\d{3})/">(\w+\s-\s\w+)</a>' # e.g. '435', 'Tom-Jerry'
p = re.compile(regex)
db = re.findall(p, source)
db = [tuple(filter(None, t)) for t in db]
hero_id = []
for j in db:
hero_id.append(j[0])
i += 1
print hero_id
注意:db = [tuple(filter(None, t)) for t in db]
db
は次のようなタプルのリストです:[('564', 'Tom', 'Jerry'), ('321', 'X-man', 'Hulk')]
。ライン上では、hero_id = []
すべてが魅力のように機能します。for foopは、すべての番号を追加する必要があります(からのすべてのURLからurllist
)。それは部分的にその仕事をします。最後のhero_id
リストには、最後のURLの番号のみが含まれています(以前の番号はなくなりました)。アイデア?