1

Nutch 1.5 と Solr 3.5 を使用しています。Nutch を使用して solr インデックスを更新する最良の方法を知りたいです。ナットのseedlist.txtには、約100万のURLが含まれています。新しい URL は毎日追加されます。また、一部の URL は削除または更新されます。

nutch コマンド「./nutch crawl urls -solr /solr/ -dircrawl -depth 1 -topN 10」は、インデックス作成用に新しく追加された URL をピックアップします。ただし、更新および削除された URL はまったく変更されません。

クロール フォルダーを削除して再度インデックスを作成すると、「追加」と「更新」の問題が修正されます。ただし、100 万の URL をクロールするには長い時間がかかり、「削除」URL インデックスはまだ Solr にあります。

Solrインデックスを削除するために私が知りたいのは、「update?commit=true&stream.body=id:xxxx」のような更新コマンドを使用することだけです。

私は正しい方向にいますか?またはそれを行うためのより良い方法はありますか?

4

2 に答える 2

0

非アクティブまたは削除された URL の設定を変更して、それらを再クロールしようとすると DB_GONE としてマークされるようにすることができます。この設定を変更すると、独自の選択に基づいてこれらの URL が削除されます。

<property>
  <name>db.update.purge.404</name>
  <value>true</value>
  <description>If true, updatedb will add purge records with status DB_GONE
  from the CrawlDB.
  </description>
</property>

詳細については、 http://amac4.blogspot.com/2013/08/nutch-re-crawling.htmlをご覧ください。

于 2013-10-14T08:41:03.250 に答える