hadoop - Hive の複数の挿入が DISTINCT 選択ステートメントでうまくいかない

Question

「 Hadoop the Definitive Guide」からこのコードを読みました。

SELECT a.ad_id, a.campaign_id, a.account_id, b.user_id
FROM dim_ads a JOIN impression_logs b ON (b.ad_id = a.ad_id)
WHERE b.dateid = '2008-12-01') x
INSERT OVERWRITE DIRECTORY 'results_gby_adid'
SELECT x.ad_id, count(1), count(DISTINCT x.user_id) GROUP BY x.ad_id
INSERT OVERWRITE DIRECTORY 'results_gby_campaignid'
SELECT x.campaign_id, count(1), count(DISTINCT x.user_id) GROUP BY x.campaign_id
INSERT OVERWRITE DIRECTORY 'results_gby_accountid'
SELECT x.account_id, count(1), count(DISTINCT x.user_id) GROUP BY x.account_id;

しかし、私のテストでは、複数の DISTINCT を使用しても正しい結果が得られません。

以下のように私のhiveql：

CREATE TABLE IF NOT EXISTS a (logindate int, id int);

次に、ローカルファイルをこのテーブルにロードします...

CREATE TABLE IF NOT EXISTS user (id INT) PARTITIONED BY (logindate INT) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;

次に、テーブルを個別に挿入する場合:

INSERT OVERWRITE TABLE user PARTITION(logindate=20130120) SELECT DISTINCT(id) FROM a WHERE logindate=20130120;
INSERT OVERWRITE TABLE user PARTITION(logindate=20130121) SELECT DISTINCT(id) FROM a WHERE logindate=20130121;

結果は正しいです。

ただし、次の複数の挿入 hql を選択する場合:

FROM a
INSERT OVERWRITE TABLE user PARTITION(logindate=20130120) SELECT DISTINCT(id) WHERE logindate=20130120
INSERT OVERWRITE TABLE user PARTITION(logindate=20130121) SELECT DISTINCT(id) WHERE logindate=20130121;
the results are not correct, both partitions have the same number of records, seems like select from DISTINCT(id) WHERE logindate=20130120 OR logindate=20130121

それはバグですか、それとも間違った構文を書いたのでしょうか?

score 1 · Accepted Answer

DISTINCTには、group byのエイリアスとして、コードに少し奇妙な履歴があります。バグがある場合は、リリースごとにバグに対処しているため、使用しているハイブのバージョンを知っておくことが重要です。

これはうまくいくかもしれません：

FROM a
INSERT OVERWRITE TABLE user PARTITION(logindate=20130120) SELECT id WHERE logindate=20130120 GROUP BY id
INSERT OVERWRITE TABLE user PARTITION(logindate=20130121) SELECT id WHERE logindate=20130121 GROUP BY id;

それがうまくいかない場合、これは間違いなく機能します...それはあなたが使おうとしていたアプローチではありませんが...

FROM (select distinct id, logindate from a where logindate in ('20130120','20130121')) subq_a
INSERT OVERWRITE TABLE user PARTITION(logindate=20130120) SELECT id WHERE logindate=20130120
INSERT OVERWRITE TABLE user PARTITION(logindate=20130120) SELECT id WHERE logindate=20130121;

hadoop - Hive の複数の挿入が DISTINCT 選択ステートメントでうまくいかない

1 に答える 1

Related

Reference