“spark-graphx”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

228 参照

spark-graphx - Join 演算子の一致とは正確には何を意味するのか

よくわかりません。かなり単純な結合操作のように見えることを実行しようとしていますが、期待どおりに機能していません。pGraphとcGraphの 2 つのグラフがあります。それぞれが CSV ファイルからエントリを読み取ることによって構築され、使用されるid値は属性の 1 つから生成されます。pGraphには、属性で完全に具体化されたp個の頂点が含まれ、 cGraphには、同様に定義されたc個の頂点が含まれます。pGraphでは、一貫したID値を使用して、 p個の頂点とc個の頂点の間に定義されたエッジがあります。ただし、cの属性は頂点はcGraphでのみ使用できます。c頂点の属性 ( cGraphから) とp頂点の属性 ( pGraph から) が結合の結果 ( xGraph )で定義されるように、2 つのグラフを結合したいと考えています。

これを達成すると私が考えたコードは次のとおりです。

最終的に、デバッグによって、map 関数がまったく呼び出されていないことがわかりました。つまり、明らかにpGraphとcGraphに一致する頂点がありませんでした。id値が同じであれば一致するだろうと想定していました。しかし、それは正しくないようです。一致が Vertex の両方のコンポーネント (id と属性) に基づいている場合、もちろん一致はありません。これは、一方の場合は属性が null であり、他方の場合は適切な値であるためです。

私が見つけた結合操作の例は、thisと入力頂点が異なるグラフからのものではなく、同じであるという意味ですべて自明です。

助言がありますか？

spark-graphx

2015-04-22T14:34:19.347

0 投票する

1 に答える

705 参照

java - Apache Spark GraphX java.lang.ArrayIndexOutOfBoundsException

Spark-GraphX の操作方法を理解しようとしていますが、常に問題が発生するため、誰かが何を読むべきかなどをアドバイスしてくれるかもしれません。さまざまなサイズのネットワークなどを処理するために必要なメモリ量の説明.

私のテストでは、いくつかのサンプルデータセットを使用します。Spark シェルから 1 つのマスターノード (~16Gb RAM) で実行します。

3 ～ 5 人のワーカー (4Gb RAM を搭載した 1 台のマシンごとに 1 人のワーカー):

次に、Spark Shell から scala スクリプトを実行します (コンパイルされていません)。

私はまだ HDFS を使用していません。データセットファイルを各マシンにコピーしただけです (もちろんパス名は同じです)。zachary club のような小さなネットワークや、さらに大きな 256 Mb までのネットワーク (ドライバーメモリパラメーターを増やした後) では、三角形やウェッジなどを数えることができます。

ここで、750 Mb 以上のネットワークを処理しようとすると、エラーが発生します。たとえば、2 列 (link_from link_to)、750Mb の形式のウィキペディアリンクデータセットがあります。それをロードしてみてください：

エラーが発生します：

実際には、>>1Tb のサイズのデータセットで作業する必要がありますが、小さいデータセットでもエラーが発生します。私は何を間違っていますか？メモリの制限は？>>1Tb ファイルに対してどのような戦略を提案できますか?それらをより適切に保存するにはどうすればよいですか? ありがとう。

2015-05-04T11:09:28.650

0 投票する

1 に答える

1065 参照

scala - Spark GraphX: ノードだけをグラフに挿入する方法

たとえば、GraphX では、既存のネットワークを更新するために 2 つのグラフをマージできることを知っています。GraphX でこのような更新操作を行うにはどうすればよいでしょうか?! ありがとう！

scala apache-spark spark-graphx

2015-05-04T12:14:19.370

0 投票する

1 に答える

268 参照

apache-spark - 頂点を結合するとき、MEMORY_ONLY キャッシュを使用する必要がありますか?

のソースを見るとouterJoinVertices

これはバグなのか仕様なのか気になる

質問

グラフ/結合された頂点が既に別のものを介してキャッシュされている場合StorageLevel(例: MEMORY_ONLY_SER) - これが原因org.apache.spark.graphx.impl.ShippableVertexPartitionOps ... WARN ShippableVertexPartitionOps: Joining two VertexPartitions with different indexes is slow.ですか?
この場合、これは Spark のバグですか (これは 1.3.1 からのものです)? もしそうなら、これに関するJIRAの問題を見つけることができませんでした（しかし、私はあまりよく見ていませんでした...）
このメソッドに新しい StorageLevel を提供するほど簡単に修正できないのはなぜですか?
この問題の回避策は何ですか? （私が考えることができるのは、vertices.join（otherVertices）とoriginalGraph.edgesなどで新しいグラフを作成することです...しかし、それは間違っていると感じています...

apache-spark spark-graphx

2015-05-13T20:09:06.617

0 投票する

3 に答える

1523 参照

scala - 隣接頂点タイプで混合ノードグラフをフィルタリングする方法

この質問は、Spark GraphX に関するものです。特定の他のノードの隣接ノードを削除して、サブグラフを計算したいと考えています。

例

[タスク] C2 ノードの隣接ノードではない A ノードと B ノードを保持します。

入力グラフ:

出力グラフ:

出力グラフを返すGraphXクエリをエレガントに書く方法は?

scala graph spark-graphx

2015-05-19T12:13:10.953

0 投票する

1 に答える

719 参照

scala - 同じノード x が指すノード v、w 間のエッジを計算する方法

この質問は、Spark GraphX に関するものです。任意のグラフが与えられた場合、いずれかのノード x が指す任意の 2 つのノード v、w の間にエッジを追加する新しいグラフを計算したいと考えています。新しいエッジには、ポインティングノードが属性として含まれている必要があります。

つまり、与えられた辺 (x, v, nil) と (x, w, nil) から、辺 (v, w, x) と (w, v, x) を計算します。

これはどのグラフでも機能するはずであり、頂点 ID など、事前にグラフについて何も知る必要はありません。

例

[タスク] 同じノード (例: B) によってポイントされたときに、ノード (例: A、C) 間に 2 つの有向エッジを追加します。

入力グラフ:

出力グラフ (双方向エッジ = 2 つの有向エッジ):

出力グラフを返すGraphXクエリをエレガントに書く方法は?

scala graph spark-graphx

2015-05-19T12:25:17.210

0 投票する

0 に答える

243 参照

apache-spark - Spark GraphX サブグラフメソッドは null を生成します。

subgraphグラフの頂点をフィルタリングするために使用します。ただし、頂点を収集すると、いくつかのnull値がそこにあります。

元のグラフの頂点にnull値が含まれていないことを保証できます。

apache-spark spark-graphx

2015-05-22T06:45:04.820

0 投票する

2 に答える

5176 参照

apache-spark - Apache Spark GraphX 接続コンポーネント

サブグラフ関数を使用して、特定の接続コンポーネントから頂点とエッジのみを含むグラフを取得する方法は? 連結成分 ID を知っているとしましょう。最終的な目標は、連結成分に基づいて新しいグラフを作成することです。元のグラフの頂点属性を保持したいと思います。

apache-spark spark-graphx

2015-05-25T21:24:28.130

問題タブ [spark-graphx]

Reference