サーバーに Hadoop をデプロイしてから、このチュートリアルを使用して nutch1.5.1 をビルドし、hadoop で nutch を実行します。ログ ファイルにエラー メッセージはありませんでしたが、crawlDB は URL を更新できないため、crawlDB は常に初期 URL を保持しています。
私の開発用 ENV では、正常に動作していることを org.apache.nutch.crawl.Crawl urls -dircrawl -depth 3 で実行しています。
私のサーバー側では、次のようなスクリプトを実行します。
./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5
HDFS にコピーした URL ファイル。
何かを設定する必要がありますか?