hadoop - map-reduce の出力を複数の Map ファイルに直接出力することは可能ですか?

Question

ユースケースは次のとおりです。

訪問済みおよび未訪問のステータスを含むURLに関するデータを含むnutchcralldb（hadoopマップファイル）があります。URLのステータスに基づいて、2つのcrawldb（マップファイル）に分割したいと考えています。

これまでMultipleOutputFormatを使用してみましたが、シーケンスファイルまたはテキストファイルでは機能し、マップファイルでは機能しないことを読みました。

（参考：hadoop v20.2を使用しています）

score 1 · Accepted Answer

代わりにMultipleOutputsを見てください。型ごとに MultipleOutputs.getCollector() メソッドを呼び出すカスタムレデューサーを作成する必要があります。javadocs に使用例があります。

ジョブ構成で:

 MultipleOutputs.addMultiNamedOutput(conf, "map",
   org.apache.hadoop.mapred.MapFileOutputFormat.class,
   LongWritable.class, Text.class);

1 に答える 1