“spark-graphx”の関連問題_Stack Overflow日本語サイト

0 投票する

1 に答える

2228 参照

apache-spark - Apache Zeppelin が Spark 出力を表示しない

次のデータサンプルを使用して、Spark で Zeppelin をテストしています。

Spark-Shell でコードが正常に動作していても、Zeppelin が常に出力を表示できるとは限らないことに気付きました。以下は例ですが、これを修正する方法はありますか？

2015-12-03T14:54:45.320

0 投票する

1 に答える

2984 参照

scala - グラフの頂点にプロパティをアタッチして近傍を取得する方法

私は Spark と Scala にかなり慣れていません...グラフ:Graph[Int, String] があり、DataFrame にあるいくつかのプロパティをこれらの頂点にアタッチしたいと思います。

私がする必要があるのは、頂点ごとに、各プロパティの近傍の平均値を見つけることです。これはこれまでの私のアプローチですが、2 つのデータフレームの結合から取得した Row を正しくマッピングする方法がわかりません。

各頂点のプロパティを隣接する頂点の配列と結合しているため、私のアプローチは適切ではないと思いますが、隣接する頂点のプロパティの値はまだわかりません...

編集

私が達成したいことを理解するのに役立ついくつかのデータ... SparkのデータフレームからEdgeRDDを作成する方法に対するこの回答のようにグラフを作成するとします

次に、次のようなデータフレームがあります。

各頂点について、DataFrame として返される、平均的な性別と近隣住民の平均収入を計算したいと思います。

scala apache-spark spark-graphx

2015-12-09T20:41:31.323

0 投票する

1 に答える

802 参照

scala - Spark で Executor ごとに配列を作成し、RDD に結合する

MPI ベースのシステムから Apache Spark に移行しています。Sparkで次のことを行う必要があります。

n頂点があるとします。nこれらの頂点からエッジリストを作成したいと考えています。エッジは 2 つの整数 (u,v) の単なるタプルであり、属性は必要ありません。

ただし、各エグゼキューターで独立して並行して作成したいと考えています。したがって、 Spark ExecutorP用に個別にエッジ配列を作成したいと考えています。P各配列はサイズが異なる可能性があり、頂点に依存するため、から0までのエグゼキュータ ID も必要n-1です。次に、エッジのグローバル RDD 配列が必要です。

MPI では、プロセッサランクを使用して各プロセッサに配列を作成します。GraphX特にライブラリを使用して、Sparkでそれを行うにはどうすればよいですか?

したがって、私の主な目標は、各エグゼキュータでエッジの配列を作成し、それらを 1 つの RDD に結合することです。

私は最初に Erdos の修正版である Renyi モデルを試しています。パラメータとして、ノード数 n と確率 p しかありません。

executorがからまでiのノードを処理する必要があるとします。node などの任意のノードについて、確率 p でからまでのエッジを作成します。各エグゼキューターが割り当てられたエッジを作成した後、GraphXと. したがって、私の計画は、各エグゼキュータで個別にエッジリストを作成し、それらをにマージすることです。101200101101102 -- nEdgeRDDVertexRDDRDD

scala apache-spark spark-graphx

2015-12-15T18:19:08.440

0 投票する

1 に答える

825 参照

python - ソースRDDでキーを共有する要素とペアRDDを作成する方法は?

pyspark にキーと値の RDD があり、ソース RDD に同じキーを持つペアの RDD を返したいと考えています。

これまでのところ、これを行うための関数の正しい組み合わせを考え出すことができませんでした。これの目的は、共有共通キーに基づいてユーザーのエッジリストを作成することです。

python apache-spark pyspark spark-graphx

2015-12-16T21:54:31.930

0 投票する

1 に答える

887 参照

apache-spark - 生成されたグラフで Spark GraphX アルゴリズムを実行する際の問題

次のコードを使用して、Spark GraphX でグラフを作成しました。（私の質問と解決策を参照してください）

これで、グラフにアクセスしてノードの次数を確認できます。しかし、接続されたコンポーネントなどのいくつかのメジャーを取得しようとすると、次の例外が発生します。

GraphX を使用して生成されたグラフでこれらの操作を実行できるのはなぜですか?

apache-spark spark-graphx

2015-12-22T17:25:14.667

0 投票する

1 に答える

920 参照

scala - graphxの隣人との頂点の類似性を計算する方法

次のような単純なグラフがあるとします。

各属性の各頂点が隣接する頂点とどの程度似ているかを計算したいと思います。

理想的な出力 (RDD または DataFrame) は、次の結果を保持します。

たとえば、1L の最初の値は、2 つのネイバーで同じ値を共有するのは 1 つだけであることを意味します...

私は、同様の属性値を持っているネイバーの数をカウントするためだけに、aggregateMessage で遊んでいますが、これまでのところ役に立ちません。

これにより、各頂点の正しい近傍サイズが得られますが、値を正しく合計していません。

scala apache-spark spark-graphx

2015-12-30T11:46:15.063

0 投票する

1 に答える

869 参照

scala - VertexRDD を DataFrame に変換する方法

VertexRDD[DenseVector[Double]] があり、それをデータフレームに変換したい。DenseVector の値をデータフレームの新しい列にマッピングする方法がわかりません。

スキーマを次のように指定しようとしています:

オプションは、VertexRDD (breeze.linalg.DenseVector がすべての値を保持する場所) を RDD[Row] に変換して、最終的に次のようなデータフレームを作成できるようにすることだと思います。

しかし、私は

歓迎以上のヒント

scala apache-spark dataframe apache-spark-sql spark-graphx

2015-12-31T10:53:11.790

問題タブ [spark-graphx]

Reference