1

このアプリケーションでは、引用符 (一重引用符と二重引用符の両方) を引用符で囲みたいと思いますが、恥ずかしがり屋の文字を引用符で囲む必要はありません。

これをより具体的にするために、このコードは次のとおりです。

from lxml.html import fromstring, tostring
parsed = fromstring(u'<div>That fire&shy;fighter is 6&#39;11&#34; tall!</div>')
print repr(tostring(parsed, encoding=unicode))

...この出力があります:

u'<div>That fire\xadfighter is 6\'11" tall!</div>'

...しかし、私はこの出力が欲しい:

u'<div>That fire\xadfighter is 6&#39;11&#34; tall!</div>'

本質的に、デフォルトのエンコーディング/エスケープ動作をオーバーライドしたいと考えています。


私が知る限り、これは libxml2 ではサポートされていません。今のところ、完全に信頼できる (そしてできれば高速な) 後処理方法も受け入れます。

4

0 に答える 0