apache-tika - tika を使用したカスタム xpath 式

Question

org/apache/tika/sax/BodyContentHandler.java のコードを使用して、複雑な xpath 式を認識する tika 用のカスタム xpath contentHandler を構築しようとしています (他のものに tika を使用しているため)

このxpathは機能します

/xhtml:html/xhtml:body/descendant:node()

しかし、これはしません

//xhtml:div[@id='someid']/descendant:node()

tika の contentHandler (html コンテンツのアンバランスなタグと無効な文字を修正するため) を javax.xml.xpath の xpath エバリュエーターと統合したいと考えています。それを行う適切な方法は何ですか。tika が html コンテンツを評価して修正したら、inputsource を取得する方法はありますか?

score 2 · Accepted Answer

Tika に含まれる XPath 機能は、XPath 機能のサブセットのみをサポートします (詳細については、XPathParserを参照してください)。より複雑な XPath クエリについては、javax.xml.xpathのようなものを使用することをお勧めします。

apache-tika - tika を使用したカスタム xpath 式

1 に答える 1

Related

Reference