ローカル マシンに保存された静的な HTML ページがあります。シンプルなファイルオープンとBeautifulSoupを使ってみました。ファイルが開いていると、Unicode エラーと BeautifulSoup が原因で HTML ファイル全体が読み取られず、ライブ Web サイトで機能します。
#with beautifulSoup
from bs4 import BeautifulSoup
import urllib.request
url="Stack Overflow.html"
page = urllib.request.urlopen(url)
soup = BeautifulSoup(page.read())
universities=soup.find_all('a',class_='institution')
for university in universities:
print(university['href']+","+university.string)
#Simple file read
with open('Stack Overflow.html', encoding='utf-8') as f:
for line in f:
print(repr(line))
HTML を読んだ後、属性を持たないul
andからデータを抽出したいと思います。li
どんな推薦も大歓迎です。