私の mapreduce ジョブで、リデューサー部分の出力がキーでソートされていることがわかります..
したがって、レデューサーの数を 10 に設定した場合、出力ディレクトリには 10 個のファイルが含まれ、それらの各出力ファイルには並べ替えられたデータが含まれます。
ここに記載している理由は、すべてのファイルのデータがソートされていても、これらのファイル自体はソートされていないためです。たとえば、part-000* ファイルが 0 から始まり、zzzz で終わるシナリオがあります。 Text をキーとして使用します。
ファイル内でもファイルをソートする必要があると想定していました。つまり、ファイル 1 には a があり、最後のファイル部分には 00009 に zzzz または atleaset > a のエントリが必要です。
すべてのアルファベットが均一に分散されたキーを持っていると仮定します。
なぜそのような振る舞いをするのか