グループ化コンパレータが mapreduce の二次ソートで使用される理由を知りたいです。
二次選別の決定的なガイドの例によると
キーのソート順を年順 (昇順) にしてから温度順 (降順) にします。
1900 35°C
1900 34°C
1900 34°C
...
1901 36°C
1901 35°C
キーの年の部分で分割するようにパーティショナーを設定することで、同じ年のレコードが同じリデューサーに送られることを保証できます。ただし、これでも目標を達成するにはまだ十分ではありません。パーティショナーは、1 つのレデューサーだけが 1 年間のすべてのレコードを受け取ることを保証します。レデューサーがパーティション内のキーによってグループ化されるという事実は変わりません。
特定のレデューサーに送られるマップ出力キーを処理する独自のパーティショナーを既に作成しているので、なぜそれをグループ化する必要があるのでしょうか。
前もって感謝します