私がやりたいこと:クロールされたすべてのページから解析されたデータを受け取るNutchプラグインを作成します。これでHTMLページに必要な処理が実行されることはわかってHtmlParseFilter
いますが、他の種類のコンテンツも処理したいと考えています。Tikaが、たとえばPDFまたはWord文書を解析すると、結果が登録済みに渡されHtmlParseFilter
ますか?そうでない場合、Tikaの出力を傍受する他の方法はありますか?
質問する
265 次