hadoop - Hadoop でケースのみを使用する方法は?

Question

Hadoop mapreduce は初めてです。ファイルのテキストを小文字に変換するためのmapreduceコードを開発したいのですが、ファイルの前と同じ順序で.つまり、wordcountデータシーケンスに似ているのではなく、ファイルの実際の順序を意味します。

score 1 · Accepted Answer

ファイルを 1 行ずつ読み取り、それをキー値<< LineNumber,UPPERCASEOFLINE >>として出力するだけなので、各行の大文字がレデューサーの値になります (要素が 1 つだけのリスト)。

あとは、レデューサーのキーとして値 (キーごとに 1 行) を出力するだけで、レデューサーの値を NullWritable にすることができます。

マッパーのLineNumberは、行入力ごとに 1 回ずつ 1 ずつ増加します。また、isSplitable() をオーバーライドして false を返すようにし、1 つのファイルが 1 つのマッパーによって完全に処理されるようにします。

2 に答える 2