urllib2 を使用してページの html を取得し、beautifulsoup で解析しようとしていますが、どこにでもある htmlÂ
と&
シンボル/文字に問題がありました。たとえば、ここにコード スニピットがあります。
<p>Total&2 £100.00.<br/>Total&2 £100.00<br/>Total&2 £100.00</p>
Â
使用しているストリップを取り外したり、交換したりできません...
HTML を取得するコードは次のとおりです。
html = urllib2.urlopen("http://www.websitehere.com", timeout=10).read().decode('UTF-8')
soup = BeautifulSoup(html)
誰でも助けることができますか?
編集
私はさまざまなデコードを試しましたが、次の場所にあるすべてのものも試しました: How to make the python interpreter correctly handle non-ASCII characters in string operations? しかし、まだ何もありません:/
ありがとう - ハイフレックス