java - Nutch1.5のTikaパーサーでHtmlParseFilterを使用する

Question

私がやりたいこと：クロールされたすべてのページから解析されたデータを受け取るNutchプラグインを作成します。これでHTMLページに必要な処理が実行されることはわかってHtmlParseFilterいますが、他の種類のコンテンツも処理したいと考えています。Tikaが、たとえばPDFまたはWord文書を解析すると、結果が登録済みに渡されHtmlParseFilterますか？そうでない場合、Tikaの出力を傍受する他の方法はありますか？

score 3 · Accepted Answer

HtmlParseFilter は (Tika ができる) すべてのコンテンツタイプを処理します。その機能をより正確に反映するために、2.x ブランチでは ParseFilter に名前が変更されました。

java - Nutch1.5のTikaパーサーでHtmlParseFilterを使用する

1 に答える 1

Related

Reference