最後のリリース 1.7.2 を含む JSoup を使用すると、タグが閉じられていない無効なHTML を解析するバグがあります。
例:
String tmp = "<a href='www.google.com'>Link<p>Error link</a>";
Jsoup.parse(tmp);
生成するドキュメントは次のとおりです。
<html>
<head></head>
<body>
<a href="www.google.com">Link</a>
<p><a>Error link</a></p>
</body>
</html>
ブラウザーは次のようなものを生成します。
<html>
<head></head>
<body>
<a href="www.google.com">Link</a>
<p><a href="www.google.com">Error link</a></p>
</body>
</html>
Jsoup は、ブラウザーまたはソース コードとして動作する必要があります。
解決策はありますか?API を調べたところ、何も見つかりませんでした。