1

クロールには Nutch 1.6 を使用し、クロールされた URL のインデックス作成には solr 3.6.2 を使用しています。しかし、 を含む URL のみを保持したいdetails
私がやったことは、多くの (たくさんの) フィルターを に追加することnutch/conf/regex-urlfilter.txtです。

Solrindexすべてのデータ (URL) をクロールし、Solr (コマンド)で重要な 1 回だけをフィルター処理する必要がある場合でも、より良い解決策があるかどうかを知りたいです。

4

1 に答える 1

1

ページが必要ない場合は、インデックス自体から除外することをお勧めします。
ただし、Solr でフィルター処理できるパターンがある場合は、フィルター クエリを使用してフィルター処理を行うことができます。

于 2013-05-23T09:02:36.123 に答える