python - urllib2 Â および & 記号/文字を使用して html を取得していますが、それらを削除する方法が不明です

翻译自：https://stackoverflow.com/questions/19041193 2013-09-27T01:10:27.840

299 次

urllib2 を使用してページの html を取得し、beautifulsoup で解析しようとしていますが、どこにでもある htmlÂと&ampシンボル/文字に問題がありました。たとえば、ここにコードスニピットがあります。

<p>Total&2 Â£100.00.<br/>Total&2 Â£100.00<br/>Total&2 Â£100.00</p>

Â使用しているストリップを取り外したり、交換したりできません...

HTML を取得するコードは次のとおりです。

html = urllib2.urlopen("http://www.websitehere.com", timeout=10).read().decode('UTF-8')
soup = BeautifulSoup(html)

誰でも助けることができますか？

編集

私はさまざまなデコードを試しましたが、次の場所にあるすべてのものも試しました: How to make the python interpreter correctly handle non-ASCII characters in string operations? しかし、まだ何もありません:/

ありがとう - ハイフレックス

1 に答える 1