私のデータはリアルタイムでロードする必要がないので、HBASE を使用する必要はありませんが、MR ジョブで HBASE を使用することでパフォーマンス上の利点があるかどうか疑問に思っていました。
誰もベンチマークを持っていますか?
HBase と Hive のパフォーマンス:
HBase、Hive、および Hbase 上の Hive の結果に基づくと、どちらのアプローチのパフォーマンスも同等であることがわかります。
一般的に言えば、Hive/hdfs は HBase よりも大幅に高速です。HBase は HDFS の上にあるため、別のレイヤーが追加されます。個々のレコードを検索する場合は HBase の方が高速ですが、そのために MR ジョブを使用することはありません。
敬意を表して:)データが本物ではなく、mapreduceジョブも検討している場合は、ブログをHadoop MapReduceプログラムで処理してHDFSに保存できるため、hdfsにのみアクセスしてください。一方、Hiveは、HDFSロケーションのデータの高速読み取り、基本SQL、結合、およびHiveデータベースへのバッチデータロードをサポートします。
ハイブは、
バルク処理/リアルタイム(可能な場合)
およびSQLのようなインターフェイスも提供します
最適化されたマップに組み込まれています
-hdfsとの互換性が高く、HBaseのレイヤーを減らすのに役立つ大きなデータのパーティショニングを削減します。それならそれはあなたにとって冗長な機能になるでしょう:)