誰でも私を説明したり、リンク登録を提供したりできます。つまり、高レベルの集計とは何ですか?プロパティを設定する場所をいくつか読んだ
hive.map.aggr = true
高レベルの集計を実行します。しかし、私はそれの意味を見つけることができませんでした!
hive.map.aggr は、集計方法を制御します。デフォルトは false です。true に設定されている場合、Hive は map タスクで直接第 1 レベルの集計を行います。通常、これにより効率が向上しますが、正常に実行するにはより多くのメモリが必要になる場合があります。
さらなる議論: http://dev.bizo.com/2013/02/map-side-aggregations-in-apache-hive.html
答えは、 86 ページのHIVE プログラミングにあります。GL!