&#xxxx;
表記を適切なユニコード文字列に変換する標準的な、できればPythonicの方法はありますか?
例えば、
מפגשי
次のように変換する必要があります。
מפגשי
文字列操作を使用して非常に簡単に実行できますが、このための標準ライブラリがあるかどうか疑問に思います。
>>> from HTMLParser import HTMLParser
>>> h = HTMLParser()
>>> s = "מפגשי"
>>> print h.unescape(s)
מפגשי
これも標準ライブラリの一部です。
ただし、Python 3 を使用している場合は、次からインポートする必要がありますhtml.parser
。
>>> from html.parser import HTMLParser
>>> h = HTMLParser()
>>> s = 'מפגשי'
>>> print(h.unescape(s))
מפגשי