0

hadoop 1.03 で nutch-1.5 を実行しようとすると、次のエラーが発生します。

hadoop jar nutch-1.5.job org.apache.nutch.crawl.Crawl urls -dir urls -depth 1 -topN 5

**Caused by: java.io.IOException: can't find class: org.apache.nutch.protocol.ProtocolStatus because org.apache.nutch.protocol.ProtocolStatus**

Nutch-1.3 に関するバグ レポートhttps://issues.apache.org/jira/browse/NUTCH-1084を見ました が、まだ解決されていないようです。どんな助けでも大歓迎です。

私はこのチュートリアルに従います:

http://wiki.apache.org/nutch/NutchHadoopTutorial

http://wiki.apache.org/nutch/NutchTutorial

http://wiki.apache.org/hadoop/HowToConfigure

編集

私はこのチュートリアルhttp://www.rui-yang.com/develop/build-nutch-1-4-cluster-with-hadoop/に従っていますが、うまくいきます。問題を正確に修正するものはわかりません。単一ノードで Hadoop を実行しています。私はこの変更を行います:

1. hadoop-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、マスター、スレーブを hadoop/conf から nutch/conf にコピーし、nutch を再構築します。

2.export CLASSPATH=:$NUTCH_HOME/runtime/local/lib

次のチュートリアルを作成しますhttp://dataspider.blogspot.com.es/2012/09/instalacion-de-hadoop.html

4

1 に答える 1

1

Hadoop 1.0.3 を使用する場合は、1.5 の代わりに nutch1.5.1 を使用します。

Nutch1.5.1 のリリース ノートを確認して ください https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=10680&version=12321850

このバージョンで NUTCH-1084 が修正されたかどうかはわかりませんが、このリリースには次のパッチが含まれていました https://issues.apache.org/jira/browse/NUTCH-1398

于 2012-09-12T04:37:41.117 に答える