python - 美しいスープ: アクセス
からの要素
IDなし

Question

このウィキペディアのページから誕生日を持っている人をこすり取ろうとしています

既存のコードは次のとおりです。

hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)    
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)

print soup

これはすべて正常に機能し、HTML ページ全体を取得しますが、特定のデータが必要であり、ID を使用せずに Beautiful Soup でアクセスする方法がわかりません。タグには ID がなく、タグ<ul>にもありません<li>。<li>さらに、ページには他のリストがあるため、すべてのタグを要求することはできません。特定のリストを呼び出す特定の方法はありますか? (すべての日付を反復処理してすべてのページの誕生日を取得する予定であり、すべてのページがこのページとまったく同じレイアウトであるとは保証できないため、この 1 つのページだけを修正することはできません)。

score 6 · Accepted Answer

出生セクションを見つけます。

section = soup.find('span', id='Births').parent

そして、次の順不同リストを見つけます。

births = section.find_next('ul').find_all('li')

python - 美しいスープ: アクセスからの要素IDなし

2 に答える 2

Related

Reference

python - 美しいスープ: アクセス
からの要素
IDなし