Python で HTML エンティティを使用して Unicode UTF-8 文字列を ASCII にエンコードする必要があります。
明確にするために:
source = u"Hello…"
wanted = "Hello…"
これは解決策ではありません:
as_ascii = source.encode('ascii', 'xmlcharrefreplace')
as_ascii
に設定されるためHello…
、つまり、HTML 文字参照ではなく XML 文字参照を使用します。
次のいずれかが可能なPythonモジュール/関数/エンティティの辞書はありますか:
- HTML 文字参照を使用して Unicode を ASCII にデコードします。
- XML 文字参照を含む ASCII 文字列を HTML 文字参照に (必要に応じて) 置き換えます。