hadoop - nutch2.0 hadoop 入力パスが存在しません

Question

Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: hdfs://yuqing-namenode:9000/user/yuqing/2
at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.listStatus(FileInputFormat.java:235)
at org.apache.hadoop.mapreduce.lib.input.FileInputFormat.getSplits(FileInputFormat.java:252)
at org.apache.hadoop.mapred.JobClient.writeNewSplits(JobClient.java:962)
at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:979)
at org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897)
at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:850)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:415)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850)
at org.apache.hadoop.mapreduce.Job.submit(Job.java:500)
at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:530)
at org.apache.nutch.util.NutchJob.waitForCompletion(NutchJob.java:50)
at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:219)
at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:136)
at org.apache.nutch.crawl.Crawler.run(Crawler.java:250)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)
at org.apache.nutch.crawl.Crawler.main(Crawler.java:257)

Nutch conf から Hadoop の構成ファイルを削除すると、エラーの最初の行は次のようになります。

Exception in thread "main" org.apache.hadoop.mapreduce.lib.input.InvalidInputException: Input path does not exist: file:/home/yuqing/workspace/nutch2.0/2

Nutch2.0 を hbase で実行すると成功しましたが、完全なディストリビューションが機能しなくなりました。フルディストリビューションの Hbase は正常に動作します。シェルで操作できます。次にnutch2.0にフォルダを作成すると、クローラは動くのですが、コンソールの出力がおかしいようです。今、私は食事をしなければなりません。

score 0 · Accepted Answer

入力パスがないようです。まさにhadoopが言ったように。hdfs dfs -ls /user/yuqing/2 が何かを返すことを確認してください (2 はファイルまたはディレクトリである必要があります)

2 番目の部分については、hadoop 構成を削除すると、hadoop ライブラリは内部構成 (ディストリビューションで *-default.xml、fe core-default.xml という名前で見つけることができます) と「ローカル」モードの hadoop 関数を使用します。「ローカル」モードでは、すべてのパスがローカルです (ローカルファイルシステム内)。そのため、「hdfs」モードでファイルを参照すると、fe hdfs dfs -ls /some/file で、hadoop は hdfs 内のファイル (hdfs://namenode.ip/some/file) を検索しますが、ローカルモードではファイルが検索されます。相対 (通常は file:/home/user/some/file)。出力でそれを見ることができます: file:/home/yuqing/workspace/nutch2.0/2

hadoop - nutch2.0 hadoop 入力パスが存在しません

1 に答える 1

Related

Reference