私も同じ問題を抱えてる。Nutchは、seed.txtに存在しない場合でも、古いURLのみを再クロールします。
初めてnutchを開始するときは、次のことを行います。
/root/Desktop/apache-nutch 2.1 / runtime / local / urls / seed.txtにドメイン「www.domain01.com」を追加します(引用符なし)
/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtに、新しい行を追加します。
#他のものを受け入れる
^ http://([a-z0-9] *。)* www.domain01.com/sport/
/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtに、新しい行を追加します。
#他のものを受け入れる
^ http://([a-z0-9] *。)* www.domain01.com/sport/
...そしてすべてが大丈夫だった。
次に、次の変更を行いました。
/root/Desktop/apache-nutch-2.1/runtime/local/urls/seed.txtからwww.domain01.comを削除し、www.domain02.comとwww.domain03.comの2つの新しいドメインを追加します。
/root/Desktop/apache-nutch-2.1/runtime/local/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。
#他のものを受け入れる
^ http://([a-z0-9] *。)www.domain02.com/sport/
^ http://([a-z0-9]。)* www.domain03.com /スポーツ/
/root/Desktop/apache-nutch-2.1/conf/regex-urlfilter.txtからwww.domain01.comを削除し、2つの新しい行を追加します。
#他のものを受け入れる
^ http://([a-z0-9] *。)www.domain02.com/sport/
^ http://([a-z0-9]。)* www.domain03.com /スポーツ/
次に、次のコマンドを実行します。
updatedb
bin/nutch inject urls
bin/nutch generate urls
bin/nutch updatedb
bin/nutch crawl urls -depth 3
そして、nutchはまだwww.domain01.comをクロールします
どうしてか分かりません ?
Linux Debian 6.0.5(x64)でNutch2.1を使用しています。また、LinuxはWindows 7(x64)の仮想マシンで起動されます。