このウィキペディアのページから誕生日を持っている人をこすり取ろうとしています
既存のコードは次のとおりです。
hdr = {'User-Agent': 'Mozilla/5.0'}
site = "http://en.wikipedia.org/wiki/"+"january"+"_"+"1"
req = urllib2.Request(site,headers=hdr)
page = urllib2.urlopen(req)
soup = BeautifulSoup(page)
print soup
これはすべて正常に機能し、HTML ページ全体を取得しますが、特定のデータが必要であり、ID を使用せずに Beautiful Soup でアクセスする方法がわかりません。タグには ID がなく、タグ<ul>
にもありません<li>
。<li>
さらに、ページには他のリストがあるため、すべてのタグを要求することはできません。特定のリストを呼び出す特定の方法はありますか? (すべての日付を反復処理してすべてのページの誕生日を取得する予定であり、すべてのページがこのページとまったく同じレイアウトであるとは保証できないため、この 1 つのページだけを修正することはできません)。