2

このウィキペディアのページから誕生日を持っている人をこすり取ろうとしています

既存のコードは次のとおりです。

hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)    
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)

print soup

これはすべて正常に機能し、HTML ページ全体を取得しますが、特定のデータが必要であり、ID を使用せずに Beautiful Soup でアクセスする方法がわかりません。タグには ID がなく、タグ<ul>にもありません<li><li>さらに、ページには他のリストがあるため、すべてのタグを要求することはできません。特定のリストを呼び出す特定の方法はありますか? (すべての日付を反復処理してすべてのページの誕生日を取得する予定であり、すべてのページがこのページとまったく同じレイアウトであるとは保証できないため、この 1 つのページだけを修正することはできません)。

4

2 に答える 2

6

出生セクションを見つけます。

section = soup.find('span', id='Births').parent

そして、次の順不同リストを見つけます。

births = section.find_next('ul').find_all('li')
于 2013-07-16T17:46:10.927 に答える