performance - Hiveでcount(distinct)がgroup byよりも遅いのはなぜですか?

翻译自：https://stackoverflow.com/questions/19311193 2013-10-11T05:56:40.710

21633 次

Hive では、count(distinct) は group-by よりも、reducer への負荷が不均衡になり、最終的に 1 つの悲しい reducer がすり減ってしまう可能性が高いと思います。以下のクエリの例。

なんで？

クエリの例:

select count(distinct user)
from some_table

group-by を使用したバージョン (より高速であると提案されています):

select count(*) from
(select user
 from some_table
 group by user) q

注:このプレゼンテーションのスライド 26 で問題について説明しています。

1 に答える 1