Parquet ファイル形式をテストし、Impala 外部テーブルを使用してデータを Parquet ファイルに挿入しています。
以下は、Parquet ファイルのサイズに影響を与える可能性のあるパラメーター セットです。
NUM_NODES: 1
PARQUET_COMPRESSION_CODEC: none
PARQUET_FILE_SIZE: 1073741824
次の挿入ステートメントを使用して、Parquet ファイルに書き込みます。
INSERT INTO TABLE parquet_test.parquetTable
PARTITION (pkey=X)
SELECT col1, col2, col3 FROM map_impala_poc.textTable where col1%100=X;
約 1 GB のファイル サイズを生成し、それに応じてパーティション分割されたデータを生成して、各パーティションに 1 GB 未満のデータが Parquet 形式で含まれるようにします。ただし、この挿入操作では、512 MB を超える単一のファイルは生成されません。512 MB のデータを 1 つのファイルに書き込み、別のファイルを作成し、残りのデータを別のファイルに書き込みます。すべてのデータを単一のファイルに書き込むにはどうすればよいですか?