Nutch がクロールを終了すると、削除する重複があることを認識し、「xxx の重複を削除しています」と言って問題なく完了します。唯一の問題は、重複を削除したと言われているにもかかわらず、実際には重複を削除していないことです。
また、dedup コマンドを単独で使用してみましたが、結果は同じです。
私のブログに示されているように、Solr と Nutch のセットアップがあります。各段階を別の投稿でもう少し深く掘り下げたい場合は、次のようにします。
http://amac4.blogspot.co.uk/2013/07/setting-up-solr-with-apache-tomcat-be.html http://amac4.blogspot.co.uk/2013/07/setting-up -nutch-to-crawl-filesystem.html