JTidyv。r938を使用しています。このコードを使用してページをクリーンアップしようとしています…</p>
final Tidy tidy = new Tidy();
tidy.setQuiet(false);
tidy.setShowWarnings(true);
tidy.setShowErrors(0);
tidy.setMakeClean(true);
Document document = tidy.parseDOM(conn.getInputStream(), null);
しかし、このURLを解析すると--http://www.chicagoreader.com/chicago/EventSearch?narrowByDate = This + Week&eventCategory = 93922&keywords =&page = 1、物事はクリーンアップされていません。たとえば、ページ上のMETAタグは、次のようになります。
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
として残る
<META http-equiv="Content-Type" content="text/html; charset=UTF-8">
「</META>」タグを付けたり、「<META http-equiv = "Content-Type" content = "text/html;」と表示したりする代わりに charset =UTF-8"/>"。結果のJTidyorg.w3c.dom.Documentを文字列として出力することでこれを確認します。
JTidyが本当にページをクリーンアップするために、つまり、ページを整形式にするために何ができますか?他にもツールがあることはわかっていますが、この質問は特にJTIdyの使用に関連しています。