3

私の問題は、シードの特定のリストから開始して、すべてのページとすべてのドキュメントをクロールすることです。

私はnutchをインストールし、次のコマンドで実行しました。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

100 urlのようなものをクロールするナッチプロセスを期待していましたが、11個のドキュメントしか見つからなかったと表示されます。だから私はこのコマンドでnutchを実行しようとしました:

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

そしてそれは23の文書を見つけました。

テストシードhttp://nutch.apache.orgから開始するプロセスを実行しています

なぜnutchがこの振る舞いをするのですか?シードから特定の深さまですべてのURLをクロールするようにnutchを設定するにはどうすればよいですか?

4

1 に答える 1

6

topNは、すべての深さでフェッチされるURLの数を設定します。最初の例では、深さは3です。Depth1はシードURLです。また、depth2とdepth3では、5(topN値)のURLがフェッチされます。5 * 2(depth2およびdepth3)+ 1(シードURL、つまりdepth1)= 11.より多くのURLをフェッチするには、topNを増やすことができます。制限したくない場合は、topN引数をスキップできます。

于 2012-07-16T16:09:07.553 に答える