こちらの Apache Nutch チュートリアルに従います。
チュートリアルに示されているように、regex-urlfilter.txt の最後の行を次のように設定しました。
+^http://([a-z0-9]*\.)*nutch.apache.org/
私のnutch-site.xmlファイルには行のみが含まれています
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
私のseed.txtファイルは次のとおりです。
http://nutch.apache.org/
ただし、クロールすると
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
「取得する URL がありません」というエラーが表示されます。理由を知っている人はいますか?