java - JavaでXHTMLおよび/またはHTML5エンティティをデコードするには?

翻译自：https://stackoverflow.com/questions/21883496 2014-02-19T14:30:34.090

1287 次

XHTML文字エンティティを含む文字列がいくつかあります。

"They&apos;re quite varied"
"Sometimes the string &isin; XML standard, sometimes &isin; HTML4 standard"
"Therefore -&gt; I need an XHTML entity decoder."
"Sadly, some strings are not valid XML & are not-quite-so-valid HTML <- but I want them to work, too."

エンティティをデコードする簡単な方法はありますか? (私は Java を使用しています)

私は現在StringEscapeUtils.unescapeHtml4(myString.replace("'", "\'"))、一時的なハックとして使用しています。悲しいことに、とはありますが、org.apache.commons.lang3.StringEscapeUtilsはunescapeHtml4ありunescapeXMLませんunescapeXhtml。

編集:無効な XML を処理したい、たとえば、「&&xyzzy;」が必要です。「&&xyzzy」にデコードする

編集: HTML5 には XHTML とほぼ同じ文字エンティティがあると思うので、HTML 5デコーダーも問題ないと思います。

java - JavaでXHTMLおよび/またはHTML5エンティティをデコードするには?

2 に答える 2

Related

Reference