nutch - ナッチ：すべてのURLを特定の深さでクロールする

Question

私の問題は、シードの特定のリストから開始して、すべてのページとすべてのドキュメントをクロールすることです。

私はnutchをインストールし、次のコマンドで実行しました。

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

100 urlのようなものをクロールするナッチプロセスを期待していましたが、11個のドキュメントしか見つからなかったと表示されます。だから私はこのコマンドでnutchを実行しようとしました：

bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4

そしてそれは23の文書を見つけました。

テストシードhttp://nutch.apache.orgから開始するプロセスを実行しています

なぜnutchがこの振る舞いをするのですか？シードから特定の深さまですべてのURLをクロールするようにnutchを設定するにはどうすればよいですか？

score 6 · Accepted Answer

topNは、すべての深さでフェッチされるURLの数を設定します。最初の例では、深さは3です。Depth1はシードURLです。また、depth2とdepth3では、5（topN値）のURLがフェッチされます。5 * 2（depth2およびdepth3）+ 1（シードURL、つまりdepth1）= 11.より多くのURLをフェッチするには、topNを増やすことができます。制限したくない場合は、topN引数をスキップできます。

nutch - ナッチ：すべてのURLを特定の深さでクロールする

1 に答える 1

Related

Reference