1

JSoup 1.6.2 を使用しています。私はこのHTMLを持っています...

 <a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;""> 

タグの末尾の直前に引用符があることに注意してください。私は JSoup がそれをどうにかしてきれいにしてくれることを望んでいました。私は実行してすべてを正しくしようとします...

final org.jsoup.nodes.Document doc = Jsoup.parse(html);

結果は

  <a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;" "="">

これはまだ整形式ではありません。不適切な形式の HTMl を JSoup で適切な形式にする方法はありますか? それを除いて、上記の例の仕事をすることができるが、結果の HTML に String または org.w3c.dom.Document オブジェクトとしてアクセスできる別の HTML tidy-upper はありますか?

4

2 に答える 2

0

この回答に基づいて、HTML ソースを「整頓」するために JTidy を使用することをお勧めします。

于 2012-04-17T10:18:16.470 に答える
0

正規表現の置換を使用してこれを修正できますか? Java ではどうすればよいかわかりませんが、JavaScript では次のようになります。

var str = '<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;"">';

var newStr = str.replace(/""/,'"');
//<a title="Subscribe to RSS feeds" href="http://domain/city/RSS" style="float:right; margin-left:10px;">
于 2012-04-16T22:17:59.837 に答える