私はxmlを解析するためにdom4jを使用しています。私はこのようなものを持っているとしましょう:
<?xml version="1.0" encoding="UTF-8"?>
<foo>
<bar>ƒ</bar>
</foo>
「バー」ノードの値を見ると、「& #402;」で表される特殊文字が返されます。
これを防ぎ、実際のテキストを読む方法はありますか?
ノードの値にbar
< または > または & を単独で含めると、パーサーが壊れます。これを防ぐには、すべてのデータをエスケープしてから、再びエスケープ解除する必要があります。
これにより、ドキュメントは次のようになります。
<?xml version="1.0" encoding="UTF-8"?>
<foo>
<bar>&#402;</bar>
</foo>
それはひどいですが、それはあなたのための XML です。
テキストの実際のビットはƒ
? アンパサンドをエスケープする必要があります&
。