hadoop - MapReduce で HBase クエリを最適に実行する

Question

問題

複数の HBase テーブル (A、B、C) があります。A が処理が必要なレコードのキューであると仮定します。平均 2,500 万件のレコードを含めることができます。A にはユーザー ID があります。B には、各ユーザーが実行した Web サイトヒットがあります。B には数十億の行が含まれる可能性があります。Cには、ユーザーに関するいくつかの二次情報があります。

MapReduce ジョブを使用して、キュー内のレコードに対して予測分析 (何千もの決定木) を実行します。質問の範囲には、実際の分析モデリングは含まれません。

質問

MR ジョブは、テーブル B と C に対してアドホッククエリを実行しています。たとえば、マップタスク 1 はクエリを実行してユーザー 1 のヒットを取得し、マップタスク 2 はクエリを実行してユーザー 2 のヒットを取得します。これらのヒットが同じリージョンサーバーで終了した場合、パフォーマンスを妨げますか (競合状態など)? 各マッパーが 1 つのリージョンサーバーにまたがるキーを持つように入力セットを分割する ChainMapper (ChainReducer) のようなパターンはありますか?
私の最初の考えは、必要なすべての入力 (b と c からの結果) を含むキューを用意することでした。この入力は圧縮されます (モデリングに必要なもののみ)。このアプローチにより、アドホッククエリの実行が回避されます (同時に複数のマップタスクによってリージョンサーバー間で)。

その他の提案は大歓迎です。

Cloudera CDH 3 (hadoop、hbase) を使用しています。

score 1 · Accepted Answer

解決するのは簡単ではありませんが、bloomfilter + reduce join を使用することをお勧めします。

Bloomfilter と B の影響を受ける領域のセットを構築する

Map: A -> BF(A), S = {regions of B}

B テーブルスキャンに影響を受ける領域を使用するカスタム InpufFormat を使用し、テーブル A 全体をスキャンします。

Map: B U S -> (tag 'B', keyB => value)
     A -> (tag 'A', keyA => value)
Reduce: reduce-join

Reduce で分析作業を行います。

hadoop - MapReduce で HBase クエリを最適に実行する

1 に答える 1

Related

Reference