MapReduceの能力を実証するために使用される主な例の1つは、Terasortベンチマークです。MapReduce環境で使用される並べ替えアルゴリズムの基本を理解するのに問題があります。
私にとって、並べ替えには、他のすべての要素との関係における要素の相対的な位置を決定することが含まれます。したがって、並べ替えには、「すべて」と「すべて」を比較することが含まれます。平均的な並べ替えアルゴリズム(クイック、バブルなど)は、これをスマートな方法で実行します。
私の考えでは、データセットを多くの部分に分割するということは、1つの部分を並べ替えることができ、それでもこれらの部分を「完全な」完全に並べ替えられたデータセットに統合する必要があることを意味します。数千のシステムに分散されたテラバイトのデータセットを考えると、これは大きな作業になると思います。
では、これは実際にどのように行われるのでしょうか。このMapReduceソートアルゴリズムはどのように機能しますか?
私が理解するのを手伝ってくれてありがとう。