Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
私がやりたいこと:クロールされたすべてのページから解析されたデータを受け取るNutchプラグインを作成します。これでHTMLページに必要な処理が実行されることはわかってHtmlParseFilterいますが、他の種類のコンテンツも処理したいと考えています。Tikaが、たとえばPDFまたはWord文書を解析すると、結果が登録済みに渡されHtmlParseFilterますか?そうでない場合、Tikaの出力を傍受する他の方法はありますか?
HtmlParseFilter
HtmlParseFilter は (Tika ができる) すべてのコンテンツ タイプを処理します。その機能をより正確に反映するために、2.x ブランチでは ParseFilter に名前が変更されました。