java - hbaseデータの分散分析

Question

私はhbaseに少し慣れておらず、hbaseをセットアップして、複数のHadoopマシンに保存されているデータをクエリすることができましたが、データの分析をhbaseにも分散できるかどうか疑問に思っています。

これが私の状況です。迅速に分析する必要のある数十億のレコードがあり、Xサーバーでデータベースにクエリを実行し、クエリの一意の部分を取得して、単一のサーバーでデータベースを処理するのではなく、データベースで作業できるようにしたいと考えています。データセット全体。これは可能ですか、どうすればできますか？

すべてのクエリを調整する必要があることを理解しているため、これにどのようにアプローチするかは非常にわかりません（各サーバーはhbaseを個別にクエリできません。そうしないと、hbaseはサーバー間でリクエストを分割する方法を知りません）。私は混乱していますが、Hadoopでこれを行うためのネイティブな方法があるのではないかと思いましたか？

それが役に立ったら、私のアプリケーションはJavaを実行しており、clouderaディストリビューションを使用してEC2でクラスターを実行しています。

score 1 · Accepted Answer

HBase が Hadoop 上に構築されているのには理由があります :) Hadoop の map-reduce フレームワークを使用して分析を分散し、hadoop/hbase に負荷分散を任せることができます。ドキュメントから始めて、何ができるかを確認できます。

もう 1 つのオプションは、コプロセッサを作成することです。コプロセッサーはリージョンサーバー上で実行されるため、データの近くで動作します。ここで素敵なイントロを見つけることができます

java - hbaseデータの分散分析

1 に答える 1

Related

Reference