JTidy(HTML TidyライブラリのJavaポート)を使用して、いくつかの既存のサイトをスクラブしています。私がJTidyの構成を使用したとき、それは非常に厳密であるように思われ、ページの下部を切り落としてしまいます(マークアップが悪い)。
w3c HTMLバリデーターツールのみを使用して同じマークアップを実行すると、クリーンアップされますが、書き換えがよりインテリジェントになります。タグを切り落とす代わりに、欠落しているタグがどこにあるかをインテリジェントに推測し、それに応じて構造を更新するようです。
w3cが使用するHTML-Tidy構成を知っている人はいますか?
私のjtidy構成は次のとおりです。
Tidy tidy = new Tidy();
tidy.setTidyMark(false);
tidy.setXHTML(true);
tidy.setXmlOut(false);
tidy.setNumEntities(true);
tidy.setSpaces(2);
tidy.setWraplen(2000);
tidy.setUpperCaseTags(false);
tidy.setUpperCaseAttrs(false);
tidy.setQuiet(false);
tidy.setMakeClean(true);
tidy.setShowWarnings(true);
tidy.setBreakBeforeBR(true);
tidy.setHideComments(true);