python - BeautifulSoup が不正な html を読み取らない

翻译自：https://stackoverflow.com/questions/15290991 2013-03-08T09:46:05.567

210 次

BeautifulSoupを習っていました。一部のサイトを正しく読み取っていませんでした。その理由は、一部の html 属性の形式が不適切であることがわかりました。例えば：

from bs4 import BeautifulSoup

html = """
        <html>
        <head><title>Test</title></head>
        <body>
        <p id="paraone"align="center">some content <b>para1</b>.<!--there is no space before 'align' attribute -->
        <p id="paratwo" align="blah">some content <b>para2</b>
        </html>
    """
soup = BeautifulSoup(html)
print "soup:", soup

BeautifulSoup は、不正な html を読み取らないように設計されていると思います。もしそうなら、上記のhtmlを読むための他のモジュールはありますか? 不適切な形式の Web サイトを解析できませんか?

python - BeautifulSoup が不正な html を読み取らない

0 に答える 0

Related

Reference