1995 年から 2015 年までのビルボード トップ 100 のデータをスクラップしようとしています。以下は URL へのサンプル リンクです:
http://www.umdmusic.com/default.asp?Lang=English&Chart=E&ChDay=20&ChMonth=12&ChYear=2014&ChBand= &ChSong=E
bs4 と urllib を使用してページを txt に変換し、find_all()
. 次のコードを使用してアルバムを抽出できました: table_data = bsObj.findAll('b')
.
ただし、統計を抽出しようとすると、<td>
タグに属性がないため、どのように抽出できるかわかりません。
umdmusic Web サイトの属性を持たない統計を抽出する方法を誰か説明できますか?