ここで私の単純なばかげた問題の解決策を探しています。たとえば、レコードが「\n」で区切られた 10 GB の巨大なテキスト ファイルがあり、そのファイルを Hadoop フレームワークへの入力として提供するとします。出力は、入力ファイルと同じレコードの順序を維持するが、すべてのレコードの前にシリアル番号が付いたファイルである必要があります。
たとえば、
入力テキストファイルがある場合、
this is line one
this is line two
this is line three
this is line four
-----------------
-----------------
出力ファイルは、
1 this is line one
2 this is line two
3 this is line three
4 this is line four
------------------
-----------------
編集: 10 GB のファイルの代わりに 10 TB のファイルがあるとします。Hadoop の方法を使用してファイルを処理する代わりに、より高速に処理するための他の最善の方法は何でしょうか?
また、単一のレデューサーではなく、複数のレデューサーを使用したいと考えています。