hadoop - PostgreSQL と比較して、Hive インデックスの再構築が遅すぎる

Question

PostgreSQL データウェアハウスの同じ機能と、同じデータと同じテーブル構造を持つ同じボックスで新しく作成された Hive データウェアハウスを比較しようとしています。Hive の利点を理解しようとしていますが... PostgreSQL へのデータの読み込みが 3 倍遅くなるという事実にもかかわらず、PostgreSQL でのインデックスの作成/再構築は 20 倍高速ですが、インデックスは毎回のように再構築する必要はありません。ハイブ。私の質問は、Hive 構成で何が欠けているのでしょうか?

私のセットアップは次のとおりです。

LOAD DATA LOCAL INPATH '/data/Informix94/spaces/postgres/myfile_big' OVERWRITE INTO TABLE mytable;

CREATE INDEX mytable_indx ON TABLE mytable(aa) AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler' WITH DEFERRED REBUILD LOCATION '/data/spaces/hadoop/hadoopfs';

hive.optimize.autoindex=true を設定します。hive.optimize.index.filter=true を設定します。

インデックス mytable_indx ON mytable の再構築を変更します。

私のボックスは、PostgreSQL が実行されている 3 グラムの RAM を搭載した VM で、約 1 グラムの RAM を消費します。彼はメタデータストアとして機能しています。CentOS、Hadoop、Hive の最新の安定したバージョンを使用しており、matadata ストアの場所と統計の無効化を除いて、Hive のデフォルト設定を変更していません。

結果: インデックスの再構築には、260.000.000 行で 4798 秒、5.000.000 行で 80 秒かかります。

score 0 · Accepted Answer

Hive は、データが単一のマシンに収まらなくなった場合にのみうまく機能します。したがって、表示されている結果は期待される結果です。したがって、テラバイトまたはペタバイトのデータを収集したら、Hive に満足することでしょう。あなたが説明したユースケースでは、PostgreSQLの方がはるかに適しています。

hadoop - PostgreSQL と比較して、Hive インデックスの再構築が遅すぎる

1 に答える 1

Related

Reference