Hive にデータ ウェアハウスを作成し、HBase を使用してリアルタイム アクセスを提供する必要があるため、同じアーキテクチャのアーキテクチャを知りたいです。最初に HBase にデータをダンプし、Rest Service としてアクセスして外部テーブルを作成できますか?ハイブしてハイブクエリを実行しますか?Hive は分散されますか。つまり、クラスターのすべてのノードに Hive をインストールする必要がありますか、それとも中央になりますか?
質問する
199 次
1 に答える
0
あなたの質問に答えて:
ハイブが配布されます。
最高のパフォーマンスを得るには、クラスターのすべてのノードに Hive をインストールすることを検討します。Hive は HiveQL を MapReduce ジョブに変換します。ジョブはデータがある場所で実行されます。それが不可能な場合は、データをジョブに移動する必要があります。応答時間のために、すべてのノードに Hive が必要です。
HBase に格納されたデータを参照する Hive テーブルを作成するには、Hive - HBase Integration wikiを参照してください。簡単な例を次に示します。
CREATE TABLE hbase_table_1(key int, value string)
STORED BY 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
WITH SERDEPROPERTIES ("hbase.columns.mapping" = ":key,cf1:val")
TBLPROPERTIES ("hbase.table.name" = "xyz");
于 2013-07-11T13:36:15.990 に答える