Hadoop mapreduce は初めてです。ファイルのテキストを小文字に変換するためのmapreduceコードを開発したいのですが、ファイルの前と同じ順序で.つまり、wordcountデータシーケンスに似ているのではなく、ファイルの実際の順序を意味します。
1154 次
2 に答える
1
ファイルを 1 行ずつ読み取り、それをキー値<< LineNumber,UPPERCASEOFLINE >>として出力するだけなので、各行の大文字がレデューサーの値になります (要素が 1 つだけのリスト)。
あとは、レデューサーのキーとして値 (キーごとに 1 行) を出力するだけで、レデューサーの値を NullWritable にすることができます。
マッパーのLineNumberは、行入力ごとに 1 回ずつ 1 ずつ増加します。また、isSplitable() をオーバーライドして false を返すようにし、1 つのファイルが 1 つのマッパーによって完全に処理されるようにします。
于 2012-07-25T09:46:22.167 に答える