solr - URL を保存せずに URL をスルークロールするよう Nutch に指示するにはどうすればよいですか?

Question

Confluence インスタンスがあり、それをクロールして、結果をイントラネット検索エンジンの一部として Solr に保存したいとします。

ここで、検索エンジンの一部として Confluence インスタンスに (正規表現に一致する) ページのサブセットのみを保存したいとします。

しかし、一致するページへのリンクを探して、Nutch に他のすべてのページをクロールさせたいと思います。Nutch にそれらを保存させたくありません (または、少なくとも Solr に結果でそれらを返してほしくありません)。

Nutch->Solr をこのように動作するように設定する通常の、または最も痛みの少ない方法は何ですか?

score 1 · Accepted Answer

これを行う唯一の方法は、独自の IndexFilter プラグインを作成する (またはコピー元の誰かを見つける) ことのようです。

[正常に動作するようになったら、サンプルプラグインコードをここに追加します]

参考文献:

solr - URL を保存せずに URL を *スルー* クロールするよう Nutch に指示するにはどうすればよいですか?