Confluence インスタンスがあり、それをクロールして、結果をイントラネット検索エンジンの一部として Solr に保存したいとします。
ここで、検索エンジンの一部として Confluence インスタンスに (正規表現に一致する) ページのサブセットのみを保存したいとします。
しかし、一致するページへのリンクを探して、Nutch に他のすべてのページをクロールさせたいと思います。Nutch にそれらを保存させたくありません (または、少なくとも Solr に結果でそれらを返してほしくありません)。
Nutch->Solr をこのように動作するように設定する通常の、または最も痛みの少ない方法は何ですか?