一連の .gz ファイルを HDFS にロードしました。それらの上に生のテーブルを作成すると、行数をカウントするときに奇妙な動作が見られます。gz テーブルと圧縮されていないテーブルの count(*) の結果を比較すると、最大 85% の差が生じます。ファイル gz が圧縮されたテーブルのレコードは少なくなります。誰もこれを見たことがありますか?
CREATE EXTERNAL TABLE IF NOT EXISTS test_gz(
col1 string, col2 string, col3 string)
ROW FORMAT DELIMITED
LINES TERMINATED BY '\n'
LOCATION '/data/raw/test_gz'
;
select count(*) from test_gz; result 1,123,456
select count(*) from test; result 7,720,109