1

私がやりたいこと:クロールされたすべてのページから解析されたデータを受け取るNutchプラグインを作成します。これでHTMLページに必要な処理が実行されることはわかってHtmlParseFilterいますが、他の種類のコンテンツも処理したいと考えています。Tikaが、たとえばPDFまたはWord文書を解析すると、結果が登録済みに渡されHtmlParseFilterますか?そうでない場合、Tikaの出力を傍受する他の方法はありますか?

4

1 に答える 1

3

HtmlParseFilter は (Tika ができる) すべてのコンテンツ タイプを処理します。その機能をより正確に反映するために、2.x ブランチでは ParseFilter に名前が変更されました。

于 2012-11-28T06:56:24.400 に答える