2

HTMLファイルのセットをトラバースして操作する必要があるユーティリティを開発しています。

JSoup は、完全なファイル (つまり、<html> ... </html>タグがあるファイル) の解析と操作において素晴らしい仕事をします。

ただし、部分的なページ、つまり巻いたページには、次のようなマークアップが含まれています。

<div id="leftnav">...</div>

正しく解析されますが、doc.toString()ordoc.outerHtml()が呼び出されると、完全な HTML が返されます (部分的な HTML コンテンツが<html> <body> ... </body> </html>タグでラップされます) 。

これは私にとって問題です。そのような方法で HTML コンテンツをサニタイズ/クリーンアップしないようにするための API が JSoup にあるかどうか教えてください。

ありがとう。

4

1 に答える 1