次のオプションを使用して、Hive マニュアル ( Bucketed Map Join )で説明されているように、ソートマージ結合を実行したいと思います
set hive.input.format=org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat;
set hive.optimize.bucketmapjoin = true;
set hive.optimize.bucketmapjoin.sortedmerge = true;
両方のテーブルをバケット化し、結合列でソートする必要があります。私の質問は、並べ替えはグローバルである必要があるか、つまり、最初のバケットのキーが 2 番目のバケットのキーより少ないか、または各バケットが並べ替えられていれば十分かということです。