2

urllib2 を使用してページをダウンロードし、それを BeautifulSoup にロードしています。

from bs4 import BeautifulSoup as Soup
import urllib2
baseHTML = 'http://forums.macrumors.com/'
baseForum = 'forumdisplay.php?f=109'
forumHTML = urllib2.urlopen(baseHTML+baseForum).read()
page = Soup(forumHTML)
print forumHTML
print page

印刷するときforumHTMLは、すべて問題なく、返される html は完全に問題ありません。

ただし、印刷pageすると、この時点で HTML が文字化けします。

<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallf">o n t "   s t y l e = " w h i t e - s p a c e 

ご覧のとおり、BeautifulSoup>は何らかの理由で間違った場所に a を追加しています。内部の同じ HTML は次のforumHTMLとおりです。

<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallfont" style="white-space

なぜこれが起こるのでしょうか?問題があれば、Windows 64ビットでpython 2.7を使用しています。

4

2 に答える 2

0

これに対する解決策が長い間見つからなかったので、BeautifulSoup を再インストールすることにしました。

于 2013-07-12T16:46:02.353 に答える