クロールには Nutch 1.6 を使用し、クロールされた URL のインデックス作成には solr 3.6.2 を使用しています。しかし、 を含む URL のみを保持したいdetails
。
私がやったことは、多くの (たくさんの) フィルターを に追加することnutch/conf/regex-urlfilter.txt
です。
Solrindex
すべてのデータ (URL) をクロールし、Solr (コマンド)で重要な 1 回だけをフィルター処理する必要がある場合でも、より良い解決策があるかどうかを知りたいです。