0

何千ものファイルからなる GB 単位のデータを匿名化する必要があります。通常、これを行うには永遠に時間がかかります。したがって、サーバーに既にインストールされている疑似分散 Hadoop クラスターを使用する予定です。

匿名化は、すべてのファイルの各レコードのいくつかの列で実行する必要があり、これらの匿名化された列はハッシュ マップに格納されます。

理想的には、マッパー インスタンスが各ファイルを処理し、対応する匿名化された出力ファイルを生成するようにしたいと考えています。さらに、マッパーは匿名化された列を、リデューサーが単一のファイルに集約するキーと値のペアとして吐き出す必要があります。

上記のプロセスは Hadoop フレームワークで実現できますか? そうでない場合、これを行うより良い方法はありますか?任意のヘルプや提案をいただければ幸いです。ありがとう。

4

1 に答える 1

1

MultipleOutputsを確認してください。Mapper または Reducer の出力に複数のファイル名を定義できます。

匿名化に関しては、必要なファイル名が匿名化されていること、およびマッパーが匿名化されたキーを出力することを確認してください。 context.write(anonymized(key), value);

于 2013-06-08T19:36:35.070 に答える