0

こちらの Apache Nutch チュートリアルに従います。

チュートリアルに示されているように、regex-urlfilter.txt の最後の行を次のように設定しました。

+^http://([a-z0-9]*\.)*nutch.apache.org/

私のnutch-site.xmlファイルには行のみが含まれています

<property>
 <name>http.agent.name</name>
 <value>My Nutch Spider</value>
</property>

私のseed.txtファイルは次のとおりです。

http://nutch.apache.org/

ただし、クロールすると

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

「取得する URL がありません」というエラーが表示されます。理由を知っている人はいますか?

4

1 に答える 1

0

構成は私にはうまく見えます。これらの変更をランタイム/ローカル フォルダーで行いましたか? seed.txt は NUTCH_HOME/runtime/local/urls フォルダーにあり、regex-urlfilter.txt と nutch-site.xml は NUTCH_HOME/runtime/local/conf フォルダーにあります。

NUTCH_HOME はインストール ディレクトリです。

于 2012-06-23T05:12:36.863 に答える