私は今、ウェブページの解析に美しいスープを使用しています。それは非常に有名で良いと聞きましたが、正しく機能していないようです。
これが私がしたことです
import urllib2
from bs4 import BeautifulSoup
page = urllib2.urlopen("http://www.cnn.com/2012/10/14/us/skydiver-record-attempt/index.html?hpt=hp_t1")
soup = BeautifulSoup(page)
print soup.prettify()
これは簡単なことだと思います。ウェブページを開いて、beautifulsoupに渡します。しかし、これが私が得たものです:
Warning (from warnings module):
File "C:\Python27\lib\site-packages\bs4\builder\_htmlparser.py", line 149
"Python's built-in HTMLParser cannot parse the given document. This is not a bug in Beautiful Soup. The best solution is to install an external parser (lxml or html5lib), and use Beautiful Soup with that parser. See http://www.crummy.com/software/BeautifulSoup/bs4/doc/#installing-a-parser for help."))
...
HTMLParseError: bad end tag: u'</"+"script>', at line 634, column 94
CNNのウェブサイトはうまく設計されるべきだと思ったので、何が起こっているのかよくわかりません。誰かがこれについて考えていますか?