このウィキペディアのページからデータをスクレイピングしようとしているプロジェクトに取り組んでいます。年の列 (たまたま<th>
) と 4 番目の列「ウォルト ディズニー パークス アンド リゾート」が必要です。
コード:
from urllib.request import urlopen
from bs4 import BeautifulSoup
html = urlopen("https://en.wikipedia.org/wiki/The_Walt_Disney_Company#Revenues")
bsObj = BeautifulSoup(html, "html.parser")
t = open("scrape_project.txt", "w")
year = bsObj.find("table", {"class":"wikitable"}).tr.next_sibling.next_sibling.th
money = bsObj.find("table", {"class":"wikitable"}).td.next_sibling.next_sibling.next_sibling.next_sibling
for year_data in year:
year.sup.clear()
print(year.get_text())
for revenue in money:
print(money.get_text())
t.close()
現在、ターミナルで実行すると、1991 (2 回) と 2,794 だけが出力されます。ウォルト ディズニー パークス アンド リゾーツからのすべての年と関連する収益を印刷するために必要です。また、ファイル「scrape_project.tx」に書き込むようにしようとしています
どんな助けでも大歓迎です!