4

Python で HTML エンティティを使用して Unicode UTF-8 文字列を ASCII にエンコードする必要があります。

明確にするために:

source = u"Hello…"
wanted = "Hello…"

これは解決策ではありません:

as_ascii = source.encode('ascii', 'xmlcharrefreplace')

as_asciiに設定されるためHello…、つまり、HTML 文字参照ではなく XML 文字参照を使用します。

次のいずれかが可能なPythonモジュール/関数/エンティティの辞書はありますか:

  1. HTML 文字参照を使用して Unicode を ASCII にデコードします。
  2. XML 文字参照を含む ASCII 文字列を HTML 文字参照に (必要に応じて) 置き換えます。
4

1 に答える 1