そこで、テキスト ファイルを 1 つのレコード (wholefileinputformat) としてマップし、何らかの処理を行ってから、context.write を使用して 1 行ずつ出力を書き込みます。問題は、まったく効率的ではないことが判明したことです。1 つのマップ タスクで数百万の出力が生成され、ヒープ メモリ エラーが発生します。これを行う他の方法はありますか?
map-input(file_name, file_contents_as_Text)
String output = process(file_contents)
for(each line in output)
context.write(line, some_value)