java - JSOUP で解析された HTML からエスケープされたテキストを削除する

Question

いくつかの要素も含む JSOUP を使用して HTML を解析しています。ただし、結果の doc.html() を印刷すると、代わりに:

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script>

私は得ています：

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

コードでは、次のような操作を行います。

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

UTF-8 文字セットを使用しています。

エスケープされていないテキストを直接取得するにはどうすればよいですか? 前もって感謝します！

score 4 · Accepted Answer

すべてのご協力に感謝します...私たちは以下を使用して問題を解決しました：

src.childNode(0).attr("data", data);

score 0 · Accepted Answer

私は同じ問題に遭遇しました。Apache CommonsのStringEscapeUtilsがうまくいくようです。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO この問題の最善の解決策ではありませんが、私にとってはうまくいきます。

score 0 · Accepted Answer

0

.html()代わりにメソッドを使用してください

src.html(data)

于 2012-04-23T18:06:34.797 に答える

java - JSOUP で解析された HTML からエスケープされたテキストを削除する

3 に答える 3

Related

Reference