solr - Nutch チュートリアルに従っていますが、「取得する URL がありません」というエラーが表示されます

Question

こちらの Apache Nutch チュートリアルに従います。

チュートリアルに示されているように、regex-urlfilter.txt の最後の行を次のように設定しました。

+^http://([a-z0-9]*\.)*nutch.apache.org/

私のnutch-site.xmlファイルには行のみが含まれています

<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

私のseed.txtファイルは次のとおりです。

http://nutch.apache.org/

ただし、クロールすると

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

「取得する URL がありません」というエラーが表示されます。理由を知っている人はいますか？

score 0 · Accepted Answer

構成は私にはうまく見えます。これらの変更をランタイム/ローカルフォルダーで行いましたか? seed.txt は NUTCH_HOME/runtime/local/urls フォルダーにあり、regex-urlfilter.txt と nutch-site.xml は NUTCH_HOME/runtime/local/conf フォルダーにあります。

NUTCH_HOME はインストールディレクトリです。

solr - Nutch チュートリアルに従っていますが、「取得する URL がありません」というエラーが表示されます

1 に答える 1

Related

Reference