Hadoop では、ハイブ クエリのパフォーマンスを評価するために、これら 2 つの形式で遊んでいました。TEXTファイルとして保存されているテーブルでクエリを実行すると、シーケンスファイルとして保存されたものよりも早い結果が得られました。しかし、それは逆であってはなりませんか?また、参考までに、データを最初に TEXT File テーブルにロードしてから、SEQUENCEFILE テーブルにデータを転送しました。
create table text(acid int, value string, id int) ROW FORMAT DELIMITED FIELDS TERMINATED BY '~' STORED AS TEXTFILE;
テーブル seq(acid int, value string, id int) STORED AS SEQUENCEFILE を作成します。
ロード データ ローカル inpath '-----' テーブル テキストに上書きします。
insert into table seq select * from text;
Text FILE :
Time taken: 36.284 seconds
Vs
SequenceFile :
Time taken: 42.446 seconds
Text FILE :
Time taken: 22.547 seconds
Vs
SequenceFile :
Time taken: 25.547 seconds