2

urllib2 を使用してページの html を取得し、beautifulsoup で解析しようとしていますが、どこにでもある htmlÂ&ampシンボル/文字に問題がありました。たとえば、ここにコード スニピットがあります。

<p>Total&amp;2 £100.00.<br/>Total&amp;2 £100.00<br/>Total&amp;2 £100.00</p>

Â使用しているストリップを取り外したり、交換したりできません...

HTML を取得するコードは次のとおりです。

html = urllib2.urlopen("http://www.websitehere.com", timeout=10).read().decode('UTF-8')
soup = BeautifulSoup(html)

誰でも助けることができますか?

編集

私はさまざまなデコードを試しましたが、次の場所にあるすべてのものも試しました: How to make the python interpreter correctly handle non-ASCII characters in string operations? しかし、まだ何もありません:/

ありがとう - ハイフレックス

4

1 に答える 1