urllib2 を使用してページをダウンロードし、それを BeautifulSoup にロードしています。
from bs4 import BeautifulSoup as Soup
import urllib2
baseHTML = 'http://forums.macrumors.com/'
baseForum = 'forumdisplay.php?f=109'
forumHTML = urllib2.urlopen(baseHTML+baseForum).read()
page = Soup(forumHTML)
print forumHTML
print page
印刷するときforumHTML
は、すべて問題なく、返される html は完全に問題ありません。
ただし、印刷page
すると、この時点で HTML が文字化けします。
<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallf">o n t " s t y l e = " w h i t e - s p a c e
ご覧のとおり、BeautifulSoup>
は何らかの理由で間違った場所に a を追加しています。内部の同じ HTML は次のforumHTML
とおりです。
<a href="showthread.php?t=324487" id="thread_title_324487">iPhone Tips and Tricks thread</a>
<span class="smallfont" style="white-space
なぜこれが起こるのでしょうか?問題があれば、Windows 64ビットでpython 2.7を使用しています。