2

Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。

以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。

NUM_NODES: 1 
PARQUET_COMPRESSION_CODEC: none
PARQUET_FILE_SIZE: 1073741824

次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。

INSERT INTO TABLE parquet_test.parquetTable
PARTITION (pkey=X)
SELECT col1, col2, col3 FROM map_impala_poc.textTable where col1%100=X;

約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?

4

1 に答える 1

1

クエリを実行している同じセッションで寄木細工のサイズを設定してみてください

 set PARQUET_FILE_SIZE=1g;
 INSERT INTO TABLE parquet_test.parquetTable ...
于 2016-05-14T17:38:13.257 に答える