3

この質問が少し複雑に思える場合は申し訳ありませんが、すべて関連していると思うので、一発で答えを得たいと思いました. 基本的に、次のデータセットのみに接続されているさまざまなデータセットを含むレイヤードグラフ*があります(したがって、set1にはset2へのエッジを持つ頂点がありますが、set1にはset3またはset2以外に何も接続されていません) . 関係があるかもしれませんが)。一般に、私のデータは、新しいセットごとに新しい世代をロードし続ける 1 つの大規模な家系図 (すべてのセットに約 10 億ノードを追加) と考えることができます (家族は新しい家族を作成し、エッジは後退しません)。

Hbase/hadoop システムを実行しており、Java を使用して列と値を追加する方法を知っていますが、その方法がわかりません。

  1. グラフ タイプ形式で hbase にデータを追加します (その hbase から、大量のデータを追加できるようにロードしたいと考えています。グラフをシステムのサイズに制限する他のデータベースとは異なります)。 . データを追加する方法は知っていますが、スケーラブルなグラフの方法でそれを行う方法がわかりません。
  2. グラフが読み込まれたら、グラフに何らかの分析を適用する方法を知りたいです。Pagerank は人気があるのでそう言おうと思ったのですが、グラフの処理に基づくものはほとんど何でもあります。

質問をする簡単な方法は、グラフを具体的に hbase に取得する方法であり、そこにある場合はどのように分析するのですか? チュートリアルはありますか?インターネット上には多くの hbase 情報があります (hbase の本を読みました) が、グラフに固有のものは見つかりませんでした。giraphを見つけましたが、(まだ) hbase に接続できるとは思いません。hadoop/hbase が mapreduce/bigtables のバージョンであることを確認すると、グラフを処理する方法があるのではないかと思います。

*レイヤード グラフは、次のように、頂点のさまざまなセットのレベルを持つ有向グラフです: http://en.wikipedia.org/wiki/Layered_graph_drawing

4

2 に答える 2

0

SOに関するこの質問が役立つと思います:

https://stackoverflow.com/questions/9865738/is-it-possible-to-store-graphs-hbase-if-so-how-do-you-model-the-database-to-sup/9867563#9867563

この質問に対する私の回答のこの部分は役に立つかもしれません。

Giraph への入力として HBase/Accumulo を使用することは、最近 (2012 年 3 月 7 日)、Giraph への新しい機能要求として提出されました: HBase/Accumulo 入力および出力フォーマット(GIRAPH-153)

于 2012-04-10T04:51:15.840 に答える
0

この方法で giraph を使用します。各頂点に最小限のデータのみを保存し、次に giraph でグラフ アルゴリズムを実行します。次に、pig を使用して豊富なデータで結果を組み立てます。ページ ランク アルゴリズムの場合、各頂点は頂点 ID のみを保存する必要があります。ランク、したがって、ほぼ 10 億レベルにスケーリングできます。

于 2012-04-17T05:53:33.627 に答える