order by ステートメントを含まないストリーミング ジョブに関連付けられた単純なクエリがあります。
set hive.exec.max.dynamic.partitions.pernode=100;
set hive.exec.max.dynamic.partitions=100;
set hive.exec.max.created.files=100;
set hive.exec.dynamic.partition.mode=nonstrict;
set mapred.reduce.tasks=20;
add file /home/devo/c1166313/pafvalid.py ;
add file /home/devo/c1166313/paf-rules.properties ;
from
(from
(select * from mz_paf_errors_dummy_v) p
select transform (p.*) row format delimited fields terminated by '|'
using 'pafvalid.py paf-rules.properties 10'
as (<column list>)
row format delimited fields terminated by '|' ) b
insert overwrite table mytab partition (passfail, batch_sk) select <col list>;
これは中規模のクラスター (数十台のマシン) で、マッパーの数は 2,000 を超えます。なぜ単一の減速機が必要なのですか?
Number of reduce tasks determined at compile time: 1