4

いくつかの要素も含む JSOUP を使用して HTML を解析しています。ただし、結果の doc.html() を印刷すると、代わりに:

<script language="JavaScript"> <a href="http://www.company.com/index.htm" </a> </script> 

私は得ています:

<script language="JavaScript"> &lt;a href=&quot;http://www.company.com/index.htm&quot; &lt;/a&gt; </script>

コードでは、次のような操作を行います。

for (final Element src : doc.select("script")) { 
data = data.replace(someText,newText);
src.text(data); <==== I could find this method escapes the text }

UTF-8 文字セットを使用しています。

エスケープされていないテキストを直接取得するにはどうすればよいですか? 前もって感謝します !

4

3 に答える 3

4

すべてのご協力に感謝します...私たちは以下を使用して問題を解決しました:

src.childNode(0).attr("data", data);
于 2012-04-24T13:03:21.733 に答える
0

私は同じ問題に遭遇しました。Apache CommonsのStringEscapeUtilsがうまくいくようです。

String html = StringEscapeUtils.unescapeHtml4(document.html());

IMO この問題の最善の解決策ではありませんが、私にとってはうまくいきます。

于 2012-05-15T11:43:12.650 に答える
0

.html()代わりにメソッドを使用してください

src.html(data)
于 2012-04-23T18:06:34.797 に答える