0

プログラム hbase と mapreduce があります。

HDFS にデータを保存します。このファイルのサイズは 100G です。今、私はこのデータを Hbase に入れました。

mapreduce を使用してこのファイルをスキャンし、5 分を失いました。しかし、hbase テーブルのスキャンに 30 分かかりました。

hbase と mapreduce を使用するときに速度を上げる方法は?

ありがとう。

4

1 に答える 1

0

単一ノードの HDFS を使用していると想定しています。HDFS のマルチ ノード クラスターに 100Gb ファイルがある場合、Map Reduce と Hive の両方ではるかに高速になります。

Map Reduce でマッパーとリデューサーの数を増やして、パフォーマンスを向上させることができます。この投稿をご覧ください。

Hive は本質的に HDFS の上に構築されたデータ ウェアハウス ツールであり、その下にあるすべてのクエリは Map Reduce タスクそのものです。したがって、上記の投稿はこの問題にも答えます。

于 2012-11-09T08:17:04.263 に答える