hadoop - hadoop1.0.3 と nutch1.5.1 がクロール DB を更新できない

翻译自：https://stackoverflow.com/questions/12988939 2012-10-20T13:33:33.643

97 次

サーバーに Hadoop をデプロイしてから、このチュートリアルを使用して nutch1.5.1 をビルドし、hadoop で nutch を実行します。ログファイルにエラーメッセージはありませんでしたが、crawlDB は URL を更新できないため、crawlDB は常に初期 URL を保持しています。

私の開発用 ENV では、正常に動作していることを org.apache.nutch.crawl.Crawl urls -dircrawl -depth 3 で実行しています。

私のサーバー側では、次のようなスクリプトを実行します。

./runtime/deploy/bin/nutch crawl urls -dir crawl -depth 3 -topN 5

HDFS にコピーした URL ファイル。

何かを設定する必要がありますか?

hadoop - hadoop1.0.3 と nutch1.5.1 がクロール DB を更新できない

0 に答える 0

Related

Reference