Python 2.7 で BeautifulSoup 4 を使用して、YouTube のコメントを解析しようとしています。YouTube ビデオを試してみると、ファイルの先頭だけでなく、BOM でいっぱいのテキストが表示されます。
<p> thank you kind sir :)</p>
ほぼすべてのコメントに 1 つ表示されます。これは、他の Web サイト (guardian.co.uk) には当てはまりません。私が使用しているコード:
# Source (should be taken from file to allow updating but not during wip):
source_url = 'https://www.youtube.com/watch?v=aiYzrCjS02k&feature=related'
# Get html from source:
response = urllib2.urlopen(source_url)
html = response.read()
# html comes with BOM everywhere, which is real ***, get rid of it!
html = html.decode("utf-8-sig")
soup = BeautifulSoup(html)
strings = soup.findAll("div", {"class" : "comment-body"})
print strings
ご覧のとおり、デコードを試みましたが、すぐに BOM の文字が表示されます。何か案は?