私の問題は、シードの特定のリストから開始して、すべてのページとすべてのドキュメントをクロールすることです。
私はnutchをインストールし、次のコマンドで実行しました。
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5
100 urlのようなものをクロールするナッチプロセスを期待していましたが、11個のドキュメントしか見つからなかったと表示されます。だから私はこのコマンドでnutchを実行しようとしました:
bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4
そしてそれは23の文書を見つけました。
テストシードhttp://nutch.apache.orgから開始するプロセスを実行しています
なぜnutchがこの振る舞いをするのですか?シードから特定の深さまですべてのURLをクロールするようにnutchを設定するにはどうすればよいですか?