6

XHTML文字エンティティを含む文字列がいくつかあります。

"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

エンティティをデコードする簡単な方法はありますか? (私は Java を使用しています)

私は現在StringEscapeUtils.unescapeHtml4(myString.replace("&apos;", "\'"))、一時的なハックとして使用しています。悲しいことに、 と はありますが、org.apache.commons.lang3.StringEscapeUtilsunescapeHtml4ありunescapeXMLませんunescapeXhtml

編集:無効な XML を処理したい、たとえば、「&&xyzzy;」が必要です。「&&xyzzy」にデコードする

編集: HTML5 には XHTML とほぼ同じ文字エンティティがあると思うので、HTML 5デコーダーも問題ないと思います。

4

2 に答える 2