Elastic Map-Reduce に一連の Hive テーブルがあり、要素が重複しています。これらのテーブルを重複排除する簡単な方法はありますか?
頭に浮かぶのは、ブタが消化できる一連のファイルにダンプし、ブタを起動し、DISTINCT クエリを使用してテーブルを再生成することです。かなり手間がかかると思うので、もっと簡単な方法はないかと考えています。
Elastic Map-Reduce に一連の Hive テーブルがあり、要素が重複しています。これらのテーブルを重複排除する簡単な方法はありますか?
頭に浮かぶのは、ブタが消化できる一連のファイルにダンプし、ブタを起動し、DISTINCT クエリを使用してテーブルを再生成することです。かなり手間がかかると思うので、もっと簡単な方法はないかと考えています。
1 つのクエリで重複を削除する必要があります。
INSERT OVERWRITE TABLE table
SELECT DISTINCT Col1, Col2 , ..., ColN FROM table
(顧客、ホスト、製品、場所) のような一意の列を重複排除する必要がある場合は、それ自体に結合することもできます。
異なるタイムスタンプなどで複数のエントリを取得する場合に役立ちます。
INSERT OVERWRITE TABLE my_table
select a.* from my_table a
inner join ( select min(id) as id from my_table group by unique_column ) b on ( a.id = b.id );