hadoop - ハイブにロードされたすべてのデータに対してスナッピー圧縮を有効にする方法は?

Question

Hive ウェアハウスには約 TB のデータがあり、それらの高速圧縮を有効にしようとしています。を使用してハイブ圧縮を有効にできることを知っています

hive> SET hive.exec.compress.output=true;
hive> SET mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;

データをハイブにロードしている間、しかし、すでにロードされているデータを圧縮するにはどうすればよいですか。

score 1 · Accepted Answer

Hive ORCFile は圧縮ストレージをサポートしています。既存のデータを ORCFile に変換するには、ソーステーブルと同じスキーマで新しいテーブルを作成し、さらに orc として保存します。以下を参照してください:-

CREATE TABLE A_ORC ( 
    customerID int, name string, ..etc 
) STORED AS ORC tblproperties (“orc.compress" = “SNAPPY”); 

INSERT INTO A_ORC SELECT * FROM A;

ここで、 A_ORCは新しいテーブルで、Aはソーステーブルです。

ここで、 ORCFile について詳しく知ることができます。

hadoop - ハイブにロードされたすべてのデータに対してスナッピー圧縮を有効にする方法は?

1 に答える 1

Related

Reference