問題タブ [spark-graphx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
scala - Apache Spark GraphX のノードに接続されているすべてのノードを取得する
Apache GraphX で次のような入力を取得したとします。
頂点 RDD:
エッジ RDD:
Apache Spark GraphX のノードに接続されたすべてのコンポーネントが必要です
scala - パーティション数を減らすと、実行時間が短縮されます
パーティションの数が異なると、プログラムの実行時間がどのように変化するかを確認したいと考えています。プログラムを実行するために、8 コアと 16GB RAM を搭載したマシンを使用しています。デフォルトでグラフのエッジと頂点を作成すると、spark は 8 つのパーティション (numPartitions) を使用し、時間は 11 分です。ただし、パーティションの数を減らすと (つまりsc.parallelize(edges, X)
)、次の結果が得られます。
誰かがなぜそれが起こるのか説明できますか? また、コア数の少ないマシンで同じプログラムを実行すると、実行時間は確実に減りますか? 同じままでいる可能性はありますか?
scala - GraphX の不正アクセス エラー
IntelliJ IDEA で初めて Spark と Graphx を使用しています。グラフを作成してクエリを実行しようとしていますが、次のエラーが発生します。
java.lang.IllegalAccessError: クラス org.apache.spark.graphx.impl.EdgePartitionBuilder からクラス org.apache.spark.util.collection.Sorter にアクセスしようとしました
これが私のコードです:
scala - Spark を使用して頂点からエッジを作成する
頂点の配列があり、各頂点が次の x 頂点に接続する方法でそれらからエッジを作成したいとしましょう。x には任意の整数値を指定できます。Sparkでそれを行う方法はありますか?
これは私がScalaでこれまでに持っているものです:
ここで、頂点変数は (Long, String) の配列です。しかし、プロセス全体はもちろんシーケンシャルです。
編集:
たとえば、次のような頂点があるとHello
します。次の辺が必要です: , , , , -> , , , , , ,など。World
and
Planet
cosmos
Hello -> World
World -> Hello
Hello -> and
and -> Hello
Hello
Planet
Planet -> Hello
World -> and
and -> World
World -> Planet
Planet -> World
World -> cosmos
cosmos -> World
scala - Spark の Scala と GraphX
これらのエラーが発生する理由は何ですか?
コードは次のとおりです。