PostgreSQL データ ウェアハウスの同じ機能と、同じデータと同じテーブル構造を持つ同じボックスで新しく作成された Hive データ ウェアハウスを比較しようとしています。Hive の利点を理解しようとしていますが... PostgreSQL へのデータの読み込みが 3 倍遅くなるという事実にもかかわらず、PostgreSQL でのインデックスの作成/再構築は 20 倍高速ですが、インデックスは毎回のように再構築する必要はありません。ハイブ。私の質問は、Hive 構成で何が欠けているのでしょうか?
私のセットアップは次のとおりです。
LOAD DATA LOCAL INPATH '/data/Informix94/spaces/postgres/myfile_big' OVERWRITE INTO TABLE mytable;
CREATE INDEX mytable_indx ON TABLE mytable(aa) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' WITH DEFERRED REBUILD LOCATION '/data/spaces/hadoop/hadoopfs';
hive.optimize.autoindex=true を設定します。hive.optimize.index.filter=true を設定します。
インデックス mytable_indx ON mytable の再構築を変更します。
私のボックスは、PostgreSQL が実行されている 3 グラムの RAM を搭載した VM で、約 1 グラムの RAM を消費します。彼はメタデータストアとして機能しています。CentOS、Hadoop、Hive の最新の安定したバージョンを使用しており、matadata ストアの場所と統計の無効化を除いて、Hive のデフォルト設定を変更していません。
結果: インデックスの再構築には、260.000.000 行で 4798 秒、5.000.000 行で 80 秒かかります。