Nutch 1.5 と Solr 3.5 を使用しています。Nutch を使用して solr インデックスを更新する最良の方法を知りたいです。ナットのseedlist.txtには、約100万のURLが含まれています。新しい URL は毎日追加されます。また、一部の URL は削除または更新されます。
nutch コマンド「./nutch crawl urls -solr /solr/ -dircrawl -depth 1 -topN 10」は、インデックス作成用に新しく追加された URL をピックアップします。ただし、更新および削除された URL はまったく変更されません。
クロール フォルダーを削除して再度インデックスを作成すると、「追加」と「更新」の問題が修正されます。ただし、100 万の URL をクロールするには長い時間がかかり、「削除」URL インデックスはまだ Solr にあります。
Solrインデックスを削除するために私が知りたいのは、「update?commit=true&stream.body=id:xxxx」のような更新コマンドを使用することだけです。
私は正しい方向にいますか?またはそれを行うためのより良い方法はありますか?