1

数字 (整数) を持つ 10 個の HDFS ファイルがあります。mapreduce で並べ替えを行うと、各レデューサーの出力は適切に並べ替えられます。しかし、すべての数値をグローバルにソートしたい場合はどうすればよいでしょうか? のようなもの: 最初の出力ファイルには最大の数値があり、最後の出力ファイルには最小の数値があります...

私が考えたオプションは次のとおりです。

  • mapreduce の目的を無効にする可能性がある単一のレデューサーを使用する
  • すべてをローカルにダウンロードしてマージソートします...

より良い解決策はありますか?ありがとう

4

1 に答える 1

0

テラソートの例を見てください。そこで、最初にデータのサンプルを作成して、最終結果のグローバルな並べ替えを保証するパーティショニング スキームを作成します。

于 2012-11-30T05:48:06.163 に答える