hadoop - Hadoop で OutputFormat.RecordWriter write(key,value) を 2 回実行する方法

Question

OutputFormat のキーと値のペアを 2 回調べる必要がある状況があります。本質的に：

 OutputFormat.getRecordWriter() // returns RecordWriteType1
 ... and when all those are complete across all machines
 OutputFormat.getRecordWriter() // return RecordWriterType2

両方の RecordWriterType1/2 の型付けは同じです。これを行う方法はありますか？

ありがとう、マルコ。

score 0 · Accepted Answer

残念ながら、単純にレデューサーデータを 2 回実行することはできません。

おそらく回避するためのいくつかのオプションがあります：

ID リデューサーを使用して、並べ替えられたデータを HDFS に出力し、ID マッパーを使用してデータに対して 2 つのジョブを実行します。データがそれほど多くない場合は、無駄ですが簡単です。
上記と同じですが、マップのみのジョブとキーコンパレータを使用してレデューサー関数をエミュレートできます。出力ファイルは単一のマッパーで処理され、2 つ以上のマッパーインスタンスに分割されません
レデューサーのキー/値をレデューサーのローカルディスクに書き込んでから、レデューサーのクリーンアップメソッドでローカルファイルを開き、2 番目のオプションで説明されているように処理します (グループコンパレータを使用してキーの境界を決定します)。
ReduceTask のソースを掘り下げると、ローカルディスク上のマージされた並べ替えられたセグメントを「悪用」して、データを再度実行することさえできるかもしれませんが、このオプションは純粋な純粋なハッカーです...

hadoop - Hadoop で OutputFormat.RecordWriter write(key,value) を 2 回実行する方法

1 に答える 1

Related

Reference