Nutch と Solr は初めてです。現在、ウェブサイトをクロールしたいのですが、そのコンテンツは
ASP によって生成されます。コンテンツは静的ではないため、seed.txt を作成しました。
クロールしたいすべての URL が含まれていました。例えば:
http://us.abc.com/product/10001
http://us.abc.com/product/10002
http://jp.abc.com/product/10001
http://jp.abc.com/product/10002
...
regex-urlfilter.txt には次のフィルターがあります。
# accept anything else
#+.
+^http://([a-z0-9]*\.)*abc.com/
このコマンドを使用してクロールを開始しました。
/bin/nutch crawl urls -solr http://abc.com:8983/solr/ -dir crawl -depth 10 -topN 10
seed.txt コンテンツ 40,000 以上の URL。しかし、URL のコンテンツの多くがそうではないことがわかりました。
Solrで見つけることができます。
質問:
大きなseed.txtに対するこのアプローチは実行可能ですか?
URL がクロールされていたことを確認するにはどうすればよいですか?
seed.txt にはサイズ制限がありますか?
ありがとうございました !