複数のレデューサー (eg4) を使用して、Hive で出力結果の全体的な順序付けを実装する必要があります。リンクで見つけたように、ハイブは式を使用しています:
hash_function (バケット列) mod num_buckets.
数値の入力セット (41,42,43,51,52,53) の結果として、バケットは次のようになります。
- 1 バケット: 52
- 2 バケット: 41、53
- 3 バケット: 42
- 4 バケット: 43,51
したがって、出力は適切な方法で順序付けされません。たぶん、次のような数値セットのバケット化のためのカスタム関数を設定する方法があります:
- 1 バケット: 41,42
- 2 バケット: 43,51
- 3 バケット: 52
- 4 バケット: 53