0

Nutch 1.2 を使用して HTML5 ページを解析しようとしていますが、HTML5 タグ 'header' がインデックスに含まれているという問題が発生しています。

以前は「parser.html.divIDsToExclude」で HTML4 ヘッダーを除外していましたが、これでは要件を満たせなくなりました。

構成された HTML5 タグを除外できる同様のプラグインはありますか

ありがとう!

4

1 に答える 1