BeautifulSoupを習っていました。一部のサイトを正しく読み取っていませんでした。その理由は、一部の html 属性の形式が不適切であることがわかりました。例えば:
from bs4 import BeautifulSoup
html = """
<html>
<head><title>Test</title></head>
<body>
<p id="paraone"align="center">some content <b>para1</b>.<!--there is no space before 'align' attribute -->
<p id="paratwo" align="blah">some content <b>para2</b>
</html>
"""
soup = BeautifulSoup(html)
print "soup:", soup
BeautifulSoup は、不正な html を読み取らないように設計されていると思います。もしそうなら、上記のhtmlを読むための他のモジュールはありますか? 不適切な形式の Web サイトを解析できませんか?