4

(実世界の)HTMLからデータを抽出するためにjTidyを使用しようとしていますが、jTidyはカスタムタグを解析しません。

<html>
  <body>
    <myCustomTag>some text</myCustomTag>
    <anotherCustom>more text</anotherCustom>
  </body>
</html>

カスタムタグ間のテキストを取得できません。xpathを使用するため、jTidyを使用する必要があります。

HTMLCleanerを試しましたが、完全なxpath関数をサポートしていません。

4

2 に答える 2

4

次に、Javaプロパティオブジェクトを使用してプロパティを設定することもできます。

import java.util.Properties;
Properties oProps = new Properties();
oProps.setProperty("new-blocklevel-tags", "header hgroup article footer nav");

Tidy tidy = new Tidy();
tidy.setConfigurationFromProps(oProps);

これにより、構成ファイルを作成してロードする必要がなくなります。

于 2013-09-09T08:14:44.530 に答える
2

http://tidy.sourceforge.net/docs/quickref.html#new-blocklevel-tagsをチェックしてください

簡単で汚いのはファイルを作成することです。私は私のjTidyTagsという名前を付けて、次のように呼び出します。

Tidy tidy = new Tidy();
tidy.setConfigurationFromFile("jTidyTags");

その後、W3Cに準拠していないが、誰が気にするかという警告が表示されます。これにより、ファイルを解析できます。

jTidyTagsの例は次のとおりです。

new-blocklevel-tags: myCustomTag anotherCustom

お役に立てれば!

于 2012-03-16T20:41:22.507 に答える