java - JavaでのHTMLエンティティのデコード：アポストロフィ

Question

「＆＃39」と「＆apos」のエンティティを含むHTML文字列をJavaを使用してデコードする必要があります。私はApacheCommonsLangを使用していますが、これら2つのエンティティをデコードしないため、現在次のように実行していますが、必要な処理を実行するための最速の方法を探しています。

import org.apache.commons.lang.StringEscapeUtils;

public class StringUtil {

        public static String decodeHTMLString(String s) {
            return StringEscapeUtils.unescapeHtml((s.replace("&amp;#39;", "`").replace("&apos;", "'")));
        }

}

古い質問を検索しましたが、誰も私の質問に答えていないようです。

score 2 · Accepted Answer

問題の一部は、エンティティの1つが二重にエンコードされていることだと思います：" &#39;"。これは、デコーダーによってアポストロフィに変換されることはありません。

" '"に関しては、明らかにhtmlエンティティセットの+技術的+部分ではありません。

java - JavaでのHTMLエンティティのデコード：アポストロフィ

1 に答える 1

Related

Reference