0

Confluence インスタンスがあり、それをクロールして、結果をイントラネット検索エンジンの一部として Solr に保存したいとします。

ここで、検索エンジンの一部として Confluence インスタンスに (正規表現に一致する) ページのサブセットのみを保存したいとします。

しかし、一致するページへのリンクを探して、Nutch に他のすべてのページをクロールさせたいと思います。Nutch にそれらを保存させたくありません (または、少なくとも Solr に結果でそれらを返してほしくありません)。

Nutch->Solr をこのように動作するように設定する通常の、または最も痛みの少ない方法は何ですか?

4

1 に答える 1

1

これを行う唯一の方法は、独自の IndexFilter プラグインを作成する (またはコピー元の誰かを見つける) ことのようです。

[正常に動作するようになったら、サンプル プラグイン コードをここに追加します]

参考文献:

于 2013-08-30T15:36:34.610 に答える