hadoop - ファイルを小さなものに分割し、reduce ステージでこれらのファイルの名前を生成するマップジョブ

翻译自：https://stackoverflow.com/questions/18776654 2013-09-13T01:07:41.170

73 次

大きなファイル A が与えられた場合、そのファイルのレコードと各レコードを反復処理する必要があります

そのため、出力には、ステータス別にグループ化されたレコードを含む一連のファイルと、ステータスのリストを含むファイルが含まれます

理想的には、

Hadoopでそれを行うことは可能ですか？この例でレコードごとにファイル名を生成する方法を見つけましたが、レコードを分離してステータスを列挙する方法がわかりません。

それらのレコードにどのステータスが含まれるかは事前にわかりません。

hadoop - ファイルを小さなものに分割し、reduce ステージでこれらのファイルの名前を生成するマップ ジョブ