apache - Nutch 用語の「セグメント」とは正確には何ですか?

Question

Nutch 1.6 を使い始めたところです。次の問題に遭遇するまで成功した最初のクロールを実行しました。

LinkDb: セグメントの追加: ファイル:/var/apache-nutch/crawl/segments/2013031234747 LinkDb: セグメントの追加: ファイル:/var/apache-nutch/crawl/segments/2013031250939 スレッド「メイン」org.apache.hadoop で例外が発生しました。 mapred.InvalidInputException: 入力パスが存在しません: file:/var/apache-nutch/crawl/segments/20130308114306/parse_data 入力パスが存在しません: file:/var/apache-nutch/crawl/segments/20130312135244/parse_data at org org.apache.hadoop.mapred.FileInputFormat.listStatus(FileInputFormat.java:197) org.apache.hadoop.mapred.SequenceFileInputFormat.listStatus(SequenceFileInputFormat.java:40) org.apache.hadoop.mapred.FileInputFormat.getSplits(FileInputFormat) .java:208) org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:989) で org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:981) org.apache.hadoop.mapred.JobClient.access$600(JobClient.java:174) で org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:897) で org.apache.hadoop.mapred org.apache.hadoop.security. UserGroupInformation.doAs(UserGroupInformation.java:1121) org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:850) org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:824) org .apache.hadoop.mapred.JobClient.runJob(JobClient.java:1261) org.apache.nutch.crawl.LinkDb.invert(LinkDb.java:180) org.apache.nutch.crawl.LinkDb.invert(LinkDb) .java:151) org.apache.nutch.crawl.Crawl.run(Crawl.java:143) org.apache.nutch.crawl.Crawl.main(Crawl.java:55) で org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65) で

正確に「セグメント化」されているものを理解したいのですが？上記のエラーの最初に、「LinkdB: セグメントの追加..」と表示されますが、これは何をしようとしているのでしょうか? 私たちは何をセグメント化していますか？

score 2 · Accepted Answer

セグメントは、クローラーに与えられたシードURLの入力セットからクロールを開始するためにnutchによって実行されるマップリデュースジョブによって作成されたパーティション[hadoop入力パーティション]です。

apache - Nutch 用語の「セグメント」とは正確には何ですか?

1 に答える 1

Related

Reference