約15万行のHBASEテーブルがあり、それぞれに3700列が含まれています。
一度に複数の行を選択し、次のように結果を集計する必要があります。
行[1][列1]+行[2][列1]...+行[n][
列1]行[1][列2]+行[2][列2]...+行[n][ column2]
...
row [1] [columnn] + row [2] [columnn] ... + row [n] [columnn]
スキャナーを使用して実行できる問題は、スキャナーがカーソルのようなものであり、同時に複数のマシンに分散された作業を実行するのではなく、ある領域からデータを取得してから別の領域にホッピングすることです。次のデータセットを取得するためのリージョンなど、結果が複数のリージョンにまたがる場合。
分散してスキャンする方法(オプション、または各地域のデータに対応する複数のスキャナーを作成する方法[これはそれ自体がワームの缶である可能性があります])はありますか、それともマップ/リデュースジョブで実行する必要があるものですか? 。M / Rジョブの場合、リアルタイムクエリに十分な「高速」でしょうか。そうでない場合は、NOSQLタイプのデータベースを使用してこれらのタイプの集計をリアルタイムで実行するための優れた代替手段はありますか?