HTML タグに基づいてコンテンツを抽出したい場合は、xpath-filter プラグインを見ることができます: http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/
xpath クエリを書くことができます。プラグインで構成して、必要な情報を抽出します。
もう 1 つのオプションは、(現在行っているように) プラグインを作成し、HTML/XML パーサーを使用して情報を取得することです。特定の div から一部のコンテンツを抽出する必要があるときに行ったことは次のとおりです。
@Override
public NutchDocument filter(NutchDocument doc, Parse parse, Text url, CrawlDatum datum, Inlinks inlinks) throws IndexingException {
//LOG.info("filter init: ");
Metadata metadata = parse.getData().getParseMeta();
String fullContent = metadata.get("fullcontent");
Document document = Jsoup.parse(fullContent);
Element contentwrapper = document.select("div#content").first();
//LOG.info("fullcontent");
//LOG.info(contentwrapper);
// Add field
doc.add("contentwrapper", contentwrapper.text());
return doc;
}