org/apache/tika/sax/BodyContentHandler.java のコードを使用して、複雑な xpath 式を認識する tika 用のカスタム xpath contentHandler を構築しようとしています (他のものに tika を使用しているため)
このxpathは機能します
/xhtml:html/xhtml:body/descendant:node()
しかし、これはしません
//xhtml:div[@id='someid']/descendant:node()
tika の contentHandler (html コンテンツのアンバランスなタグと無効な文字を修正するため) を javax.xml.xpath の xpath エバリュエーターと統合したいと考えています。それを行う適切な方法は何ですか。tika が html コンテンツを評価して修正したら、inputsource を取得する方法はありますか?