0

私は’自分の HTML ファイル (右中引用符) を持っていて、(可能であれば) テキストに変換したいと考えています。

HTMLParser と BeautifulSoup を使用してみましたが、成功しませんでした。

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.

私の目標は非常に単純です: html 入力を取り、すべてのテキストを (html コードなしで) 出力します。

4

1 に答える 1

2

「右中引用符」はアスキー文字ではありません。u'\x92'それを表すユニコード文字のpython表現であり、「htmlコード」ではありません。

端末で正しく表示するには、print h.unescape("’").encode('utf-8')(または端末の文字セットが何であれ)を使用します。

于 2012-05-06T19:23:22.937 に答える