プログラム hbase と mapreduce があります。
HDFS にデータを保存します。このファイルのサイズは 100G です。今、私はこのデータを Hbase に入れました。
mapreduce を使用してこのファイルをスキャンし、5 分を失いました。しかし、hbase テーブルのスキャンに 30 分かかりました。
hbase と mapreduce を使用するときに速度を上げる方法は?
ありがとう。
単一ノードの HDFS を使用していると想定しています。HDFS のマルチ ノード クラスターに 100Gb ファイルがある場合、Map Reduce と Hive の両方ではるかに高速になります。
Map Reduce でマッパーとリデューサーの数を増やして、パフォーマンスを向上させることができます。この投稿をご覧ください。
Hive は本質的に HDFS の上に構築されたデータ ウェアハウス ツールであり、その下にあるすべてのクエリは Map Reduce タスクそのものです。したがって、上記の投稿はこの問題にも答えます。