問題タブ [graphframes]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

174 問題

0 投票する

0 に答える

1108 参照

apache-spark - 大きなグラフの連結成分を見つけるためのpysparkグラフフレーム

私はconnectedComponents()pyspark のグラフフレームから使用して、約 1800K の頂点と 500k のエッジを持つかなり大きなグラフの接続コンポーネントを計算しようとしていました。

6時間経っても課題は終わらない。Windowsを搭載した単一のマシンでpysparkを実行しています

を。与えられた設定でそのような計算を行うことは実行可能ですか?

b. 次のような警告メッセージが表示されました

これは何を意味するのでしょうか？

c. グラフフレームでグラフが無向であることをどのように指定できますか? 両方向にエッジを追加する必要がありますか?

2016-10-12T20:38:31.307

0 投票する

1 に答える

845 参照

apache-spark - map() またはその他のソリューション内で sc.parallelize を使用していますか?

次の問題があります:列Aの各IDごとに列Bの値のすべての組み合わせを見つけ、結果をDataFrameとして返す必要があります

以下の入力 DataFrame の例

次の出力 DataFrame を取得する必要があります (GraphX\GraphFrame 用です)。

私が今まで考えていた1つの解決策は次のとおりです。

出力: [(1, [(20,15),(30,20),(30,15)]),(5,[(10,14)]),(3,[(50,33)]) ]

そして、ここで私は立ち往生しています:(必要なデータフレームに戻す方法は? 1つのアイデアは、並列化を使用することでした:

spark_sc.pyspark_scという名前の他のファイルがあるため

しかし、私のコードは失敗しました:

spark_sc.sc()notを使用するmap()と、動作します。

最後のステップで何が欠けているのか分かりますか? 使用することはまったく可能parallelize()ですか？または、まったく別のソリューションが必要ですか？ありがとう！

apache-spark pyspark apache-spark-sql graphframes

2016-10-19T01:20:25.930

0 投票する

1 に答える

130 参照

apache-spark - GraphFrames は型付きデータセットと互換性がありますか?

現在、私たちの仕事では型付きデータセットを使用しています。現在、Graphframes を使用して調査しています。

ただし、Graphframes は Dataset[Row] である Dataframe に基づいているようです。Graphframes は型指定されたデータセットと互換性がありますか。例: データセット[人]

apache-spark graphframes

2016-11-10T03:01:12.337

0 投票する

0 に答える

538 参照

scala - GraphFrame 集計メッセージの列を編集するには?

私は GraphFrames と Scala にかなり慣れていません。私はある種のラベル伝播アルゴリズムを書いています（ライブラリのものとは非常に異なります）。基本的に、各頂点には配列「memVector」があり、エッジには float 値「floatWeights」があります。各頂点の memVector を更新して、すべての隣接頂点からの (floatWeights * memVector) の合計にします。これは私が同じために書いたコードです:

配列と浮動小数点数を直接掛けることができないため、私が書いた aggfunc は正しくありません。上記をspark-shellで実行していますが、最後の行で次のエラーが発生しています:

私はそれに近づいていますか？回避策/解決策は大歓迎です。

scala apache-spark graphframes

2016-11-22T04:53:48.407

0 投票する

4 に答える

1344 参照

pyspark - Dataproc: Jupyter pyspark ノートブックでグラフフレームパッケージをインポートできない

Dataproc Spark クラスタでは、graphframe パッケージは spark-shell で使用できますが、jupyter pyspark ノートブックでは使用できません。

Pyspark カーネル構成:

以下は、クラスターを初期化するためのコマンドです。

pyspark jupyter google-cloud-dataproc graphframes

2016-11-30T17:35:55.583

0 投票する

3 に答える

2880 参照

scala - Apache-Spark グラフフレームの SBT

次の SBT ファイルがあります。Apache GraphFrame を使用して Scala コードをコンパイルし、CSV ファイルも読み込んでいます。

これがScalaの私のコードです

SBT を使用して Jar ファイルを作成しようとすると、コンパイル中に次のエラーが発生します。

scala apache-spark sbt graphframes

2016-12-12T14:06:26.050

0 投票する

1 に答える

1543 参照

scala - Apache-Spark グラフフレームが BFS で非常に遅い

次のコードでは、Scala を使用して Apache Spark-GraphFrames を使用しています。上記のコードに BFS を適用し、頂点 0 から 100 までの距離を見つけようとしています。

ソースノード:0 宛先ノード:100

頂点リストを以下に示します

エッジ一覧はこちら

しかし、上記のコードの問題点は、0 から 100 の頂点の実行だけでかなりの時間がかかることです。4 時間実行したのに出力がありません。上記のコードは、12 GB RAM を搭載した単一マシンで実行しています。

コードを高速化して最適化する方法を教えてください。

scala apache-spark graph breadth-first-search graphframes

2016-12-19T17:06:03.727

1 2 3 4 5 6 7 8 9 10

問題タブ [graphframes]

Reference