solr - Solr & Nutch - 特定の URL のみのインデックス作成

Question

クロールには Nutch 1.6 を使用し、クロールされた URL のインデックス作成には solr 3.6.2 を使用しています。しかし、を含む URL のみを保持したいdetails。
私がやったことは、多くの (たくさんの) フィルターをに追加することnutch/conf/regex-urlfilter.txtです。

Solrindexすべてのデータ (URL) をクロールし、Solr (コマンド)で重要な 1 回だけをフィルター処理する必要がある場合でも、より良い解決策があるかどうかを知りたいです。

score 1 · Accepted Answer

ページが必要ない場合は、インデックス自体から除外することをお勧めします。
ただし、Solr でフィルター処理できるパターンがある場合は、フィルタークエリを使用してフィルター処理を行うことができます。

solr - Solr & Nutch - 特定の URL のみのインデックス作成

1 に答える 1

Related

Reference