java - Hadoop Mapreduce:リデューサーの数をゼロに設定せずに、マッパー出力を別の出力ファイル (中間ファイルではない) に書き込むことは可能ですか?

Question

何千ものファイルからなる GB 単位のデータを匿名化する必要があります。通常、これを行うには永遠に時間がかかります。したがって、サーバーに既にインストールされている疑似分散 Hadoop クラスターを使用する予定です。

匿名化は、すべてのファイルの各レコードのいくつかの列で実行する必要があり、これらの匿名化された列はハッシュマップに格納されます。

理想的には、マッパーインスタンスが各ファイルを処理し、対応する匿名化された出力ファイルを生成するようにしたいと考えています。さらに、マッパーは匿名化された列を、リデューサーが単一のファイルに集約するキーと値のペアとして吐き出す必要があります。

上記のプロセスは Hadoop フレームワークで実現できますか? そうでない場合、これを行うより良い方法はありますか？任意のヘルプや提案をいただければ幸いです。ありがとう。

score 1 · Accepted Answer

MultipleOutputsを確認してください。Mapper または Reducer の出力に複数のファイル名を定義できます。

匿名化に関しては、必要なファイル名が匿名化されていること、およびマッパーが匿名化されたキーを出力することを確認してください。 context.write(anonymized(key), value);

1 に答える 1