XHTML文字エンティティを含む文字列がいくつかあります。
"They're quite varied"
"Sometimes the string ∈ XML standard, sometimes ∈ HTML4 standard"
"Therefore -> I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."
エンティティをデコードする簡単な方法はありますか? (私は Java を使用しています)
私は現在StringEscapeUtils.unescapeHtml4(myString.replace("'", "\'"))
、一時的なハックとして使用しています。悲しいことに、 と はありますが、org.apache.commons.lang3.StringEscapeUtils
はunescapeHtml4
ありunescapeXML
ませんunescapeXhtml
。
編集:無効な XML を処理したい、たとえば、「&&xyzzy;」が必要です。「&&xyzzy」にデコードする
編集: HTML5 には XHTML とほぼ同じ文字エンティティがあると思うので、HTML 5デコーダーも問題ないと思います。