html - JTidyに新しいタグを追加するにはどうすればよいですか？

Question

（実世界の）HTMLからデータを抽出するためにjTidyを使用しようとしていますが、jTidyはカスタムタグを解析しません。

<html>
  <body>
    <myCustomTag>some text</myCustomTag>
    <anotherCustom>more text</anotherCustom>
  </body>
</html>

カスタムタグ間のテキストを取得できません。xpathを使用するため、jTidyを使用する必要があります。

HTMLCleanerを試しましたが、完全なxpath関数をサポートしていません。

score 4 · Accepted Answer

次に、Javaプロパティオブジェクトを使用してプロパティを設定することもできます。

import java.util.Properties;
Properties oProps = new Properties();
oProps.setProperty("new-blocklevel-tags", "header hgroup article footer nav");

Tidy tidy = new Tidy();
tidy.setConfigurationFromProps(oProps);

これにより、構成ファイルを作成してロードする必要がなくなります。

score 2 · Accepted Answer

http://tidy.sourceforge.net/docs/quickref.html#new-blocklevel-tagsをチェックしてください

簡単で汚いのはファイルを作成することです。私は私のjTidyTagsという名前を付けて、次のように呼び出します。

Tidy tidy = new Tidy();
tidy.setConfigurationFromFile("jTidyTags");

その後、W3Cに準拠していないが、誰が気にするかという警告が表示されます。これにより、ファイルを解析できます。

jTidyTagsの例は次のとおりです。

new-blocklevel-tags: myCustomTag anotherCustom

お役に立てれば！

html - JTidyに新しいタグを追加するにはどうすればよいですか？

2 に答える 2

Related

Reference