Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
Nutch 1.2 を使用して HTML5 ページを解析しようとしていますが、HTML5 タグ 'header' がインデックスに含まれているという問題が発生しています。
以前は「parser.html.divIDsToExclude」で HTML4 ヘッダーを除外していましたが、これでは要件を満たせなくなりました。
構成された HTML5 タグを除外できる同様のプラグインはありますか
ありがとう!