HTMLファイルのセットをトラバースして操作する必要があるユーティリティを開発しています。
JSoup は、完全なファイル (つまり、<html> ... </html>
タグがあるファイル) の解析と操作において素晴らしい仕事をします。
ただし、部分的なページ、つまり巻いたページには、次のようなマークアップが含まれています。
<div id="leftnav">...</div>
正しく解析されますが、doc.toString()
ordoc.outerHtml()
が呼び出されると、完全な HTML が返されます (部分的な HTML コンテンツが<html> <body> ... </body> </html>
タグでラップされます) 。
これは私にとって問題です。そのような方法で HTML コンテンツをサニタイズ/クリーンアップしないようにするための API が JSoup にあるかどうか教えてください。
ありがとう。