python - HTML エンティティをテキストに変換する

Question

私は自分の HTML ファイル (右中引用符) を持っていて、(可能であれば) テキストに変換したいと考えています。

HTMLParser と BeautifulSoup を使用してみましたが、成功しませんでした。

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("&#39;")
u"'"
>>> h.unescape("&#146;")
u'\x92' # I was hoping for a right curly quote here.

私の目標は非常に単純です: html 入力を取り、すべてのテキストを (html コードなしで) 出力します。

score 2 · Accepted Answer

「右中引用符」はアスキー文字ではありません。u'\x92'それを表すユニコード文字のpython表現であり、「htmlコード」ではありません。

端末で正しく表示するには、print h.unescape("").encode('utf-8')（または端末の文字セットが何であれ）を使用します。

1 に答える 1