1

Hive ウェアハウスには約 TB のデータがあり、それらの高速圧縮を有効にしようとしています。を使用してハイブ圧縮を有効にできることを知っています

hive> SET hive.exec.compress.output=true;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

データをハイブにロードしている間、しかし、すでにロードされているデータを圧縮するにはどうすればよいですか。

4

1 に答える 1

1

Hive ORCFile は圧縮ストレージをサポートしています。既存のデータを ORCFile に変換するには、ソース テーブルと同じスキーマで新しいテーブルを作成し、さらに orc として保存します。以下を参照してください:-

CREATE TABLE A_ORC ( 
    customerID int, name string, ..etc 
) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”); 

INSERT INTO A_ORC SELECT * FROM A; 

ここで、 A_ORCは新しいテーブルで、Aはソース テーブルです。

ここで、 ORCFile について詳しく知ることができます

于 2015-05-25T10:13:15.440 に答える