数字 (整数) を持つ 10 個の HDFS ファイルがあります。mapreduce で並べ替えを行うと、各レデューサーの出力は適切に並べ替えられます。しかし、すべての数値をグローバルにソートしたい場合はどうすればよいでしょうか? のようなもの: 最初の出力ファイルには最大の数値があり、最後の出力ファイルには最小の数値があります...
私が考えたオプションは次のとおりです。
- mapreduce の目的を無効にする可能性がある単一のレデューサーを使用する
- すべてをローカルにダウンロードしてマージソートします...
より良い解決策はありますか?ありがとう