私は’
自分の HTML ファイル (右中引用符) を持っていて、(可能であれば) テキストに変換したいと考えています。
HTMLParser と BeautifulSoup を使用してみましたが、成功しませんでした。
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.
私の目標は非常に単純です: html 入力を取り、すべてのテキストを (html コードなしで) 出力します。