このアプリケーションでは、引用符 (一重引用符と二重引用符の両方) を引用符で囲みたいと思いますが、恥ずかしがり屋の文字を引用符で囲む必要はありません。
これをより具体的にするために、このコードは次のとおりです。
from lxml.html import fromstring, tostring
parsed = fromstring(u'<div>That fire­fighter is 6'11" tall!</div>')
print repr(tostring(parsed, encoding=unicode))
...この出力があります:
u'<div>That fire\xadfighter is 6\'11" tall!</div>'
...しかし、私はこの出力が欲しい:
u'<div>That fire\xadfighter is 6'11" tall!</div>'
本質的に、デフォルトのエンコーディング/エスケープ動作をオーバーライドしたいと考えています。
私が知る限り、これは libxml2 ではサポートされていません。今のところ、完全に信頼できる (そしてできれば高速な) 後処理方法も受け入れます。