solr - Nutch は、seed.txt からすべての URL をクロールしませんでした

Question

Nutch と Solr は初めてです。現在、ウェブサイトをクロールしたいのですが、そのコンテンツは

ASP によって生成されます。コンテンツは静的ではないため、seed.txt を作成しました。

クロールしたいすべての URL が含まれていました。例えば：

http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...

regex-urlfilter.txt には次のフィルターがあります。

# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/

このコマンドを使用してクロールを開始しました。

/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10

seed.txt コンテンツ 40,000 以上の URL。しかし、URL のコンテンツの多くがそうではないことがわかりました。

Solrで見つけることができます。

質問：

大きなseed.txtに対するこのアプローチは実行可能ですか?
URL がクロールされていたことを確認するにはどうすればよいですか?
seed.txt にはサイズ制限がありますか?

ありがとうございました！

score 4 · Accepted Answer

db.max.outlinks.per.pageナット構成ファイルのプロパティを確認してください。
このプロパティのデフォルト値は100であるため、seeds.txtから100個のURLのみが取得され、残りはスキップされます。
この値をより大きな数値に変更すると、すべてのURLがスキャンされてインデックスが作成されます。

score 0 · Accepted Answer

topN は、生成されたリンクのうち取得する必要があるリンクの数を示します。生成された 100 個のリンクを持つことができますが、topN を 12 に設定すると、それらのリンクのうち 12 個だけが取得、解析、およびインデックス付けされます。

solr - Nutch は、seed.txt からすべての URL をクロールしませんでした

2 に答える 2

Related

Reference