0

Hadoop mapreduce は初めてです。ファイルのテキストを小文字に変換するためのmapreduceコードを開発したいのですが、ファイルの前と同じ順序で.つまり、wordcountデータシーケンスに似ているのではなく、ファイルの実際の順序を意味します。

4

2 に答える 2

1

ファイルを 1 行ずつ読み取り、それをキー値<< LineNumber,UPPERCASEOFLINE >>として出力するだけなので、各行の大文字がレデューサーの値になります (要素が 1 つだけのリスト)。

あとは、レデューサーのキーとして値 (キーごとに 1 行) を出力するだけで、レデューサーのを NullWritable にすることができます。

マッパーのLineNumberは、行入力ごとに 1 回ずつ 1 ずつ増加します。また、isSplitable() をオーバーライドして false を返すようにし、1 つのファイルが 1 つのマッパーによって完全に処理されるようにします。

于 2012-07-25T09:46:22.167 に答える