私は現在BeautifulSoupを使用していくつかのWebサイトをスクレイプしていますが、特定の文字に問題があります。UnicodeDammit内のコードは、これが(再び)Microsoftによって発明されたものであることを示しているようです。
まだpython2.5を使用しているので、BeautifulSoup(3.0.8.1)の最新バージョンを使用しています。
次のコードは私の問題を示しています。
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('...Baby One More Time (Digital Deluxe Version…')
print soup
'...Baby One More Time (Digital Deluxe Version…'
ご覧のとおり、問題は最後にある「…」(&hellip)文字です(ブラウザはおそらく正しくエスケープされています)。明らかに、それは私が興味を持っていることではありません。
この文字がUnicode表現か何かを持っているといいでしょう。それを単純に無視することでさえ、私の特定の問題を解決するでしょう。
BeautifulSoupでこれを行うにはどうすればよいですか?