hive - ハイブのデータウェアハウス

Question

Hive にデータウェアハウスを作成し、HBase を使用してリアルタイムアクセスを提供する必要があるため、同じアーキテクチャのアーキテクチャを知りたいです。最初に HBase にデータをダンプし、Rest Service としてアクセスして外部テーブルを作成できますか?ハイブしてハイブクエリを実行しますか？Hive は分散されますか。つまり、クラスターのすべてのノードに Hive をインストールする必要がありますか、それとも中央になりますか?

score 0 · Accepted Answer

あなたの質問に答えて：

ハイブが配布されます。

最高のパフォーマンスを得るには、クラスターのすべてのノードに Hive をインストールすることを検討します。Hive は HiveQL を MapReduce ジョブに変換します。ジョブはデータがある場所で実行されます。それが不可能な場合は、データをジョブに移動する必要があります。応答時間のために、すべてのノードに Hive が必要です。

HBase に格納されたデータを参照する Hive テーブルを作成するには、Hive - HBase Integration wikiを参照してください。簡単な例を次に示します。

CREATE TABLE hbase_table_1(key int, value string) 
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz");

hive - ハイブのデータウェアハウス

1 に答える 1

Related

Reference