sql - Hive : 実行時間の長いクエリを最適化する

Question

50GB サイズの従業員ログテーブルで実行される単純な Hive SQL クエリは、何時間も実行されます。

select dept,count(distinct emp_id) from emp_log group by dept;

部門はわずか 4 ～ 5 で、部門ごとに膨大な数の従業員がいます。

1TB メモリで Hive 0.14 + Tez で実行されました。このコードブロックを最適化してパフォーマンスを向上させる方法はありますか?

変更 1
個別の代わりに collect_list を使用してテストされています。

SELECT dept, size(collect_list(emp_id)) nb_emps FROM emp_log GROUP BY dept

以下のエラーが発生しました。
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space

score 0 · Accepted Answer

次のプロパティを増やしてから、テストケースを再試行してください。

ハイブ構成:

hive.tez.conatiner.size

および Tez 構成:

1)tez.task.resource.memory.mb

2) tez.task.launch.cmd-opts-> -Xmx の 80%tez.task.resource.memory.mb

3)tez.am.resource.memory.mb

4) tez.am.launch.cmd-opts -> -Xmx の 80%tez.am.resource.memory.mb

これにより、少なくとも Java ヒープスペースの問題は解決するはずです。

score 0 · Accepted Answer

count(distinct foo)を避けるためにそれを試してください：

SELECT dept, size(collect_list(emp_id)) nb_emps
FROM emp_log 
GROUP BY dept

count(distinct x)は、HIVE 0.14 では無効です。

また、次の列の統計を有効にする必要があります。

ANALYZE TABLE emp_log COMPUTE STATISTICS;
ANALYZE TABLE emp_log COMPUTE STATISTICS FOR COLUMNS dept, emp_id;

score 0 · Accepted Answer

count(distinct) を使用したクエリは、単一のレデューサーを強制します。代わりにサブクエリを使用すると、単一のレデューサーは必要ありません。

select dept, count(*) from
    (select dept, emp_id from emp_log 
     group by dept, emp_id
     ) a
group by dept;

これははるかに高速です。乾杯！

sql - Hive : 実行時間の長いクエリを最適化する

3 に答える 3

Related

Reference