1

サーバーに Hadoop をデプロイしてから、このチュートリアルを使用して nutch1.5.1 をビルドし、hadoop で nutch を実行します。ログ ファイルにエラー メッセージはありませんでしたが、crawlDB は URL を更新できないため、crawlDB は常に初期 URL を保持しています。

私の開発用 ENV では、正常に動作していることを org.apache.nutch.crawl.Crawl urls -dircrawl -depth 3 で実行しています。

私のサーバー側では、次のようなスクリプトを実行します。

./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5

HDFS にコピーした URL ファイル。

何かを設定する必要がありますか?

4

0 に答える 0