問題タブ [spark-graphx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Graphx EdgeRDD カウントの計算に時間がかかる
私はスタンドアロンのスパークを実行しています.EdgeRDDに関連する以下のコードがあります. これらは、テキスト ファイルから読み込まれたグラフ エッジです。約 6700 万件のレコードがあります。
問題は、それらをカウントするだけで、rdd の作成でスタックします。私は24GBのRAMを搭載したマシンを持っています。実行者とドライバーの最適な設定は何ですか。または、spark-env.sh で追加の構成を設定する必要がありますか。私はspark 1.4.0を実行しています
出力は次のとおりです。
scala - TriangleCount の取得
graphX を使用して、グラフから三角形の量を取得しようとしています。私は Scala と graphX の両方に慣れていないので、現在かなり行き詰まっています。
エッジファイルからグラフを作成しています:
これは 1 つの三角形である必要があります。
次に、組み込み関数 val を使用していますcountTriangles = graph.triangleCount
。
ただし、これまでのところ、これから実際の三角形の数を抽出できませんでした。
scala - scala「型パラメーターのメンバーではありません」
Spark GraphX を使おうとしていますが、Scala の使い方に問題があると思います。私は Scala と Spark の両方の初心者です。
独自の関数を呼び出してグラフを作成します。
VertexAttributes は、私が定義したクラスです。
いくつかの計算の後、GraphX vertices() 関数を使用して各頂点のスコアを取得します。
しかし、これはコンパイルされません。sbt メッセージは次のとおりです。
このエラー メッセージをグーグルで検索しましたが、率直に言って、会話についていくことができません。エラーの原因と修正方法を教えてください。
ありがとうございました。
PS 以下は createGraph メソッドの私のコードです:
neo4j - Spark GraphX ランタイム クエリ
実行時にGraphXをクエリすることは可能ですか? それとも、これらのクエリをコンパイルして展開する必要がありますか?
もしそうなら、Cypher for GraphX に相当するものはありますか?
ありがとうございました
scala - Scala、多次元配列の合計を取得
GraphX の三角形カウントを使用して、次の配列を取得します。
配列内の各要素の 2 番目の値を合計する方法を見つけようとしています。したがって、この例では 1 です。
これを行う方法を見つけることができませんでした。
scala - Scala api to Spark を使用した EdgeRDD (GraphX) へのデータフレーム
Scala コードで型をハードコーディングせずに SparkDataFrame
から に移行する良い方法はありますか? EdgeRDD
私が見た例では、ケース クラスを使用して の型を定義していEdgeRDD
ます。
DataFrame
SparkにStructField
("dstID", LongType, false)
and("srcID", LongType, false)
と 0 から 22 の間の追加があると仮定しましょうStructField
(TupleN を使用してそれらを表すことができるように、これを制限しています)。EdgeRdd[TupleN]
から型を取得してを定義するきれいな方法はありDataFrame
ますか? 動機として、型情報を含む Parquet ファイルを読み込んでいると考えてください。
私は Spark と Scala に非常に慣れていないので、質問が間違っている可能性があることを認識しています。この場合、この問題についての「正しい」考え方を学んでいただければ幸いです。
apache-spark - 重複頂点のマージ機能を備えた Spark GraphX コンストラクターはありますか
多くの重複した頂点を持つグラフがありますが、異なる属性 (Long) があります。
デフォルトでは、GraphX は重複する頂点の属性をデフォルトの関数でマージします。
したがって、どの属性が最終的なグラフにとどまるかは、頂点の順序に依存します。
このマージ関数を設定する方法はありますか? たとえば、重複した頂点を次の関数でマージする必要があるため
パブリックコンストラクターなどは見つかりませんでした。
次のコードでグラフを作成する必要がありますか