2

JTidy(HTML TidyライブラリのJavaポート)を使用して、いくつかの既存のサイトをスクラブしています。私がJTidyの構成を使用したとき、それは非常に厳密であるように思われ、ページの下部を切り落としてしまいます(マークアップが悪い)。

w3c HTMLバリデーターツールのみを使用して同じマークアップを実行すると、クリーンアップされますが、書き換えがよりインテリジェントになります。タグを切り落とす代わりに、欠落しているタグがどこにあるかをインテリジェントに推測し、それに応じて構造を更新するようです。

w3cが使用するHTML-Tidy構成を知っている人はいますか?

私のjtidy構成は次のとおりです。

    Tidy tidy = new Tidy();
    tidy.setTidyMark(false);
    tidy.setXHTML(true);
    tidy.setXmlOut(false);
    tidy.setNumEntities(true);        
    tidy.setSpaces(2);
    tidy.setWraplen(2000);
    tidy.setUpperCaseTags(false);
    tidy.setUpperCaseAttrs(false);
    tidy.setQuiet(false);
    tidy.setMakeClean(true);
    tidy.setShowWarnings(true);
    tidy.setBreakBeforeBR(true);
    tidy.setHideComments(true);
4

1 に答える 1