(実世界の)HTMLからデータを抽出するためにjTidyを使用しようとしていますが、jTidyはカスタムタグを解析しません。
<html>
<body>
<myCustomTag>some text</myCustomTag>
<anotherCustom>more text</anotherCustom>
</body>
</html>
カスタムタグ間のテキストを取得できません。xpathを使用するため、jTidyを使用する必要があります。
HTMLCleanerを試しましたが、完全なxpath関数をサポートしていません。