1

のヘッダーnutch-site.xmlの下にと書くと、どういう意味ですか?plugin-includesparse-(type1|type2)

これは、nutch によって取得される URL ごとに、nutch が最初にtype1 つのパーサーを使用してコンテンツを解析し、次にパーサーを順次呼び出すことを意味しますtype2か?

4

1 に答える 1

1

あなたの仮定は正しいです。これがその仕組みです。ただし、各プラグインには特定のコンテンツ タイプまたは一連のコンテンツ タイプを割り当てることができることに注意してください。たとえば、parse-pdf プラグインは msword ドキュメントを解析しません。

于 2012-09-25T08:53:55.367 に答える