私はhbaseに少し慣れておらず、hbaseをセットアップして、複数のHadoopマシンに保存されているデータをクエリすることができましたが、データの分析をhbaseにも分散できるかどうか疑問に思っています。
これが私の状況です。迅速に分析する必要のある数十億のレコードがあり、Xサーバーでデータベースにクエリを実行し、クエリの一意の部分を取得して、単一のサーバーでデータベースを処理するのではなく、データベースで作業できるようにしたいと考えています。データセット全体。これは可能ですか、どうすればできますか?
すべてのクエリを調整する必要があることを理解しているため、これにどのようにアプローチするかは非常にわかりません(各サーバーはhbaseを個別にクエリできません。そうしないと、hbaseはサーバー間でリクエストを分割する方法を知りません)。私は混乱していますが、Hadoopでこれを行うためのネイティブな方法があるのではないかと思いましたか?
それが役に立ったら、私のアプリケーションはJavaを実行しており、clouderaディストリビューションを使用してEC2でクラスターを実行しています。