私のXMLファイルは次のようになります。
<strings>
<string>Bla <b>One & Two</b> Foo</string>
</strings>
内部タグを維持しながら、各<string>のコンテンツを抽出したいと思います。つまり、次のPython文字列を表示したいと思います:u "Bla <b> One&Two </b>Foo"。あるいは、u "Bla <b> One&Two </ b> Foo"に落ち着いて、自分でエンティティを置き換えようとすることもできると思います。
私は現在lxmlを使用しています。これにより、ネストされたタグを反復処理したり、タグ内にないテキストを欠落させたり、あるいはすべてのテキストコンテンツ(itertext)を反復処理して、タグ情報を失ったりすることができます。私はおそらく何かが欠けています。
可能であればlxmlを保持したいのですが、必要に応じて別のライブラリに切り替えることができます。