data-structures - グラフを保存し、hbase で分析のようなページランクを実行するにはどうすればよいですか?

Question

この質問が少し複雑に思える場合は申し訳ありませんが、すべて関連していると思うので、一発で答えを得たいと思いました. 基本的に、次のデータセットのみに接続されているさまざまなデータセットを含むレイヤードグラフ*があります(したがって、set1にはset2へのエッジを持つ頂点がありますが、set1にはset3またはset2以外に何も接続されていません) . 関係があるかもしれませんが)。一般に、私のデータは、新しいセットごとに新しい世代をロードし続ける 1 つの大規模な家系図 (すべてのセットに約 10 億ノードを追加) と考えることができます (家族は新しい家族を作成し、エッジは後退しません)。

Hbase/hadoop システムを実行しており、Java を使用して列と値を追加する方法を知っていますが、その方法がわかりません。

グラフタイプ形式で hbase にデータを追加します (その hbase から、大量のデータを追加できるようにロードしたいと考えています。グラフをシステムのサイズに制限する他のデータベースとは異なります)。 . データを追加する方法は知っていますが、スケーラブルなグラフの方法でそれを行う方法がわかりません。
グラフが読み込まれたら、グラフに何らかの分析を適用する方法を知りたいです。Pagerank は人気があるのでそう言おうと思ったのですが、グラフの処理に基づくものはほとんど何でもあります。

質問をする簡単な方法は、グラフを具体的に hbase に取得する方法であり、そこにある場合はどのように分析するのですか? チュートリアルはありますか？インターネット上には多くの hbase 情報があります (hbase の本を読みました) が、グラフに固有のものは見つかりませんでした。giraphを見つけましたが、(まだ) hbase に接続できるとは思いません。hadoop/hbase が mapreduce/bigtables のバージョンであることを確認すると、グラフを処理する方法があるのではないかと思います。

*レイヤードグラフは、次のように、頂点のさまざまなセットのレベルを持つ有向グラフです: http://en.wikipedia.org/wiki/Layered_graph_drawing

score 0 · Accepted Answer

SOに関するこの質問が役立つと思います：

https://stackoverflow.com/questions/9865738/is-it-possible-to-store-graphs-hbase-if-so-how-do-you-model-the-database-to-sup/9867563#9867563

この質問に対する私の回答のこの部分は役に立つかもしれません。

Giraph への入力として HBase/Accumulo を使用することは、最近 (2012 年 3 月 7 日)、Giraph への新しい機能要求として提出されました: HBase/Accumulo 入力および出力フォーマット(GIRAPH-153)

score 0 · Accepted Answer

この方法で giraph を使用します。各頂点に最小限のデータのみを保存し、次に giraph でグラフアルゴリズムを実行します。次に、pig を使用して豊富なデータで結果を組み立てます。ページランクアルゴリズムの場合、各頂点は頂点 ID のみを保存する必要があります。ランク、したがって、ほぼ 10 億レベルにスケーリングできます。

data-structures - グラフを保存し、hbase で分析のようなページ ランクを実行するにはどうすればよいですか?

2 に答える 2

Related

Reference

data-structures - グラフを保存し、hbase で分析のようなページランクを実行するにはどうすればよいですか?